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户 病 ， 您 可 以 在 任意 设备 上 ， i 
己 豆 欢 的 浏览 器 和 PDF 阅 读 器 进 
阅读 。 


但 您 购买 的 电子 书 仅 供 您 个 人 使 
用 ,未 经 授权 ， 不 得 进行 传播 。 
我 们 愿意 相信 读者 具有 这 样 的 民 知 
和 觉悟 ， 与 我 们 共同 保护 知识 产 
权 。 


如 果 购 买 者 有 侵权 行为 ， 我 们 可 能 
对 该 用 尸 实 施 包 括 但 不 限于 关闭 该 
帐号 等 维权 措施 ， 并 可 能 退 究 法 律 
贡 任 。 


Peter Harrington 拥有 电气 工程 学 士 和 
硕士 学 位 ， 他 曾经 在 美国 加 州 和 中 国 的 英 特 
尔 公 司 工 作 7 年 。Peter 拥 有 5 项 美国 专利 ， 
在 三 种 学 术 期 刊 上 发 表 过 文章 。 他 现在 是 
Zillabyte 公 司 的 首席 科学 家 ， 在 加 入 该 公司 
之 前 ， 他 曾 担任 2 年 的 机 器 学 习 软 件 顾问 。 
Peter 在 业余 时 间 还 参加 编程 竞赛 和 建造 3D 
打印 机 。 
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内 容 提 要 
机 带 学 习 是 人 工 智能 研究 领域 中 的 一 个 极其 重要 的 方 回 。 在 现今 大 数据 时 代 的 背景 下 ， 捕 获 数 据 并 从 
中 茶 取 有 价值 的 信息 或 模式 ， 使 得 这 一 过 去 为 分 析 师 与 数学 家 所 专属 的 研究 领域 越 来 越 为 人 们 瞩目 。 
本 书 通 过 精心 编排 的 实例 ， 切 入 日 第 工作 任务 ， 握 莽 学 术 化 语言 ， 利 用 高 效 可 复 用 的 Python 代码 阐 
释 如 何 处 理 统计 数据 ， 进 行 数据 分 析 及 可 视 化 。 读 者 可 从 中 学 到 一 些 核 心 的 机 右 学 习 算法 ， 并 将 其 运用 于 
菏 些 打上 略 性 任务 中 ， 如 分 类 、 预 测 及 推荐 等 。 
本 书 适 合 机 带 学 习 相关 研究 人 员 及 互联 网 从 业 人 员 学 习 参 考 。 
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译 者 序 


这 是 我 翻译 的 第 三 本 书 了 ， 前 两 本 分 别 是 《信息 检索 导论 》 和 《大 数据 : 大 规模 互联 网 数据 
控 据 与 分 布 式 处 理 》。 与 图 灵 公 司 有 了 这 两 次 合作 后 ， 我 们 一 直 保 持 着 十 分 密切 的 联系 。2012 年 
11 月 ， 图 灵 的 编辑 和 我 说 ， 这 本 书 的 原 译 者 不 能 继续 翻译 了 ， 问 我 能 否 续 译 后 面 的 十 二 章 。 我 翻 
阅 了 一 下 ， 觉 得 这 本 书 不 钳 ， 能 帮助 不 少 人 ， 于 是 很 快 就 接 下 了 这 个 翻译 任务 ， 并 在 11 月 底 局 动 
了 我 的 第 三 次 图 灵 翻 译 之 旅 。 

我 翻译 的 这 三 本 书 分 别 涉及 信息 检索 、 数 据 挖掘 和 机 顺 学 习 。 虽 然 这 几 个 领域 各 不 相同 , 但 
是 它们 之 间 有 着 十 分 密切 的 关联 。 简 单 地 说 , 机 需 学 习 算 法 在 包含 信息 检索 和 数据 挖掘 在 内 的 多 
个 领域 中 都 有 着 十 分 广泛 的 应 用 。 现 代 互 联网 中 的 搜索 引擎 、 社 交 网 络 、 推 荐 引擎 、 计 算 广告 、 
电子 商务 等 应 用 中 ， 都 包含 大 量 的 机 融 学 习 算 法 。“ 机 需 学 习 ” 已 经 成 为 学 术 界 和 工业 界 炙 手 可 
热 的 术语 。 了 解 机 需 学 习 算 法 ， 是 很 多 研究 人 员 和 互联 网 从 业 人 员 的 基本 要 求 。 

翻译 本 书 期 间 ， 业 界 和 人 研究 界 也 出 现 了 大 量 热点 名 词 ， 包 括 “ 大 数据 ”( big data ) “深度 学 
了 习 ”( deep learning )、“ 知 识 图 谱 ”( knowledge graph ) 等 ， 基 于 社交 网 络 的 人 研究 和 应 用 也 层 出 不 
穷 。 可 以 说 ,机 各 学 习 与 这 些 名 词 之 间 都 具有 十 分 密切 的 联系 ， 了 人 解 机 带 学 习 对 于 把 握 业 界 和 人 研 
究 界 的 脉搏 至 关 重 要 。 

本 书 没有 从 理论 角度 来 揭示 机 器 学 习 算法 背后 的 数学 原理 , 而 是 通过 “原理 简 述 + 问题 实例 + 
实际 代码 + 运行 效果 ”来 介绍 每 一 个 算法 。 学 习 计 算 机 的 人 都 知道 ， 计 算 机 是 一 门 实践 学 科 ， 没 
有 真正 实现 运行 ,很 难 真 正 理解 算法 的 精髓 。 这 本 书 的 最 大 好 人 处 就 是 边 学 边 用 ,非常 适合 于 急需 
迈进 机 顺 学 习 领 域 的 人 员 学 习 。 实 际 上 ,即使 对 于 那些 对 机 需 学 习 有 所 了 解 的 人 来 说 ,通过 代码 
实现 也 能 进一步 加 深 对 机 需 学 习 算 法 的 理解 。 

本 书 的 代码 采用 Python 语言 编写 。Python 代 码 简 单 优雅 、 易 于 上 手 ， 科 学 计算 软件 包 众多 ， 
已 经 成 为 不 少 大 学 和 研究 机 构 进 行 计 算 机 教学 和 科学 计算 的 语言 。 相 信 Python 编 写 的 机 器 学 习 代 
码 也 能 让 读者 尽快 领略 到 这 门 学 科 的 精妙 之 处 。 

由 于 个 人 精力 有 限 ， 加 上 时 间 紧 迫 ， 和 前 两 本 书 都 是 独立 翻 幸 有 所 不 同 ， 本 书 邀 请 了 多 名 颇 
具 实 力 的 译 者 共同 完成 。 全 书 共 包 括 15 革 4 个 附录 , 曲 亚 东 翻译 第 1~ 3 章 , 李鹏 博士 翻译 第 4、10、 
11 、12 章 及 附录 A 、B， 李 锐 博 士 翻译 第 ;5、8、9、15 章 及 附录 C、D,， 王 斌 翻译 第 65、7、13、14 
章 及 其 他 部 分 并 审 校 全 文 。 

感谢 翻译 过 程 中 图 灵 公 司 谢 工 、 傅 志 红 、 李 佬 、 郭 志 人 敏 、 刘 紫 凤 等 人 给 予 的 帮助 ， 感 谢 所 有 
译 者 的 家 人 朋友 一 如 既往 的 文 持 和 鼓励 ， 感 谢 所 有 帮助 和 指导 过 我 们 的 人 。 

























































































由 于 译 者 水 平 有 限 ， 书 中 难免 会 有 下 漏 ， 还 望 读 者 不 将 提出 意见 和 建议 。 同 前 儿 本 书 一 样 ， 
本 书 的 勘误 也 会 在 网 上 及 时 公布 ， 地 址 在 : http://ir.ict.ac.cn/~wangbin/mli-book。 读 者 可 以 通过 邮 
件 wbxjj2008@gmail.com 或 者 新 浪 微 博 和 我 联系 。 


王 斌 
2013 年 1 月 1$ 日 凌晨 于 中 关 村 
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大 学 毕业 后 ,我 完 后 在 加 利 福 尼 亚 和 中 国 大 陆 的 Intel 公 司 工作 。 最 初 ， 我 打算 工作 两 年 之 后 
回 学 校 恋人 研究 生 , 但 是 笠 福 时 光 飞 逝 而 过 , 转眼 就 过 去 了 六 年 。 那 时 , 我 意识 到 我 必须 回 到 校园 。 
我 不 想 上 夜校 或 进行 在 线 学 习 ， 我 就 想 坐 在 大 学 校园 里 吸纳 学 校 传 授 的 所 有 知识 。 在 大 学 里 , 最 
好 的 方面 不 是 你 研修 的 诬 程 或 从 事 的 研究 ， 而 是 一 些 外 围 活 动 : 与 人 会 面 、 参 加 研讨 会 、 加 入 组 
织 、 劳 听 读 程 ， 以 及 学 习 未 知 的 知识 。 

在 2008 年 ,我 帮助 筹备 一 个 招聘 会 。 我 同一 个 大 型 金融 机 构 的 人 交谈 ,他 们 希望 我 去 应 聘 他 
们 机 构 的 一 个 对 信用 建 模 ( 判断 菏 人 是 否 会 偿还 贫 球 ) 的 网 位。 他 们 间 我 对 随机 分 析 了 和 解 多 少 ， 
那 时 ， 我 并 不 能 确定 “随机 ”一 词 的 意思 。 他 们 提出 的 工作 地 点 令 我 无 法 接受 ， 所 以 我 决定 不 再 
考虑 了 。 但是， 他 们 说 的 “随机 ”让 我 很 感 兴趣 ， 于 是 我 拿 来 诛 程 目录 ， 寻 找 含 有 “随机 ”字样 
的 读 程 ， 我 看 到 了 “离散 随机 系统 ”。 我 没有 注册 就 直接 劳 听 了 这 门 读 ， 完 成 课 后 作业 ， 参 加 考 
试 ， 最 终 被 授课 教授 发 现 。 但 是 她 很 仁 燕 ， 让 我 继续 学 习 ， 这 让 我 非常 感激 。 上 这 门 课 ， 是 我 第 
一 次 看 到 将 概率 应 用 到 算法 中 。 在 这 之 前 , 我 见 过 一 些 算法 将 平均 值 作 为 外 部 输入 , 但 这 次 不 同 ， 
方差 和 均值 部 是 这 些 算法 中 的 内 部 值 。 这 门 诬 主 要 讨论 时 间 序 列 数 据 ， 其 中 每 一 段 数据 都 是 一 个 
均匀 间隔 样本 。 我 还 找到 了 名称 中 包含 “机 带 学 习 ” 的 态 一 门 诛 程 。 该 诛 程 中 的 数据 并 不 假设 满 
足 时 间 的 均匀 间隔 分 布 ， 它 包含 更 多 的 算法 ,但 严谨 性 有 所 降低 。 再 后 来 我 意识 到 ， 在 经 济 系 、 
电子 工程 系 和 计算 机 科学 系 的 课程 中 都 会 讲授 类 似 的 算法 。 

2009 年 初 ,我 顺利 毕业 ,并 在 硅谷 诉 得 了 一 份 软件 咨询 的 工作 。 接 下 来 的 两 年 , 我 先后 在 涉及 
不 同 技术 的 八 家 公司 工作 , 发 现 了 最 终 构 成 这 本 书 主 题 的 两 种 趋势 : 第 一 , 为 了 开发 出 苑 争 力 强 的 
应 用 ， 不 能 仅仅 连接 数据 源 ， 而 需要 做 更 多 事情 ; 第 二 ， 用 人 单位 硕 望 员工 既 恒 理论 也 能 编程 。 

程序 员 的 大 部 分 工作 可 以 类 比 于 连接 管 直 ,所 不 同 的 是 , 程序 员 连 接 的 是 数据 流 ,， 这 也 为 人 
们 带 了 巨大 的 财 店 。 举 一个 例子 ,我 们 要 开发 一 个 在 线 出 售 商品 的 应 用 , 其 中 主要 部 分 是 允许 用 
户 来 发 布 商品 并 浏览 其 他 人 发 布 的 商品 。 为 此 ， 我 们 需要 建立 一 个 Web 表 单 ， 人 允许 用 户 输入 所 售 
商品 的 信息 ,然后 将 该 信息 传 到 一 个 数据 存储 区 。 要 让 用 户 看 到 其 他 用 户 所 售 商 品 的 信息 ， 束 要 
从 数据 存储 区 获取 这 些 数据 并 适当 地 显示 出 来 。 我 可 以 确信 ， 人们 会 通过 这 种 方式 择 钱 , 但 是 如 
末 让 要 应 用 更 好 ， 需 要 加 入 一 些 智能 因素 。 这 些 智 能 因素 包括 日 动 删除 不 适当 的 发 布 信息 、 检 测 
不 正当 交易 、 给 出 用 户 可 能 豆 欢 的 商品 以 及 预测 网 站 的 流量 等 。 为 了 实现 这 些 目标 ,我 们 需要 应 
用 机 天 学 习 方 法 。 对 于 最 终 用户 而 言 ， 他 们 并 不 了 解 幕 后 的 “魔法 "”， 他 们 关心 的 是 应 用 能 有 效 
运行 ， 这 也 是 好 产品 的 标志 。 

















































































































前 言 VII 


一 个 机 构 会 雇用 一 些 理论 家 〈 思 考 者 ) 以 及 一 些 做 实际 工作 的 人 (执行 者 )。 前 者 可 能 会 将 
大 部 分 时 间 花 在 学 术 工 作 上 , 他 们 的 日 痢 工 作 束 是 基于 论文 产生 思路 , 然后 通过 高 级 工具 或 数学 
进行 建 模 。 后 者 则 通过 编写 代码 与 真实 世界 交互 ， 处 理 非 理想 世界 中 的 甫 疫 ， 比 如 毅 省 的 机 硕 或 
者 市 噪声 的 数据 。 完 全 区 分 这 两 类 人 并 不 是 个 好 想法 ， 很 多 成 功 的 机 构 都 认识 到 这 一 点 。( 精益 
生产 的 一 个 原则 就 是 ， 思 考 者 应 该 目 己 动手 去 做 实际 工作 。) 当 招聘 经 费 有 限时 ， 谁 更 能 得 到 工 
作 , 思考 者 还 是 执行 者 ?很 可 能 是 执行 者 , 但 是 现实 中 用 人 单位 希望 两 种 人 都 要 。 很 多 事情 都 需 
要 做 , 但 当 应 用 逢 要 更 融 要 求 的 算法 时 ,那么 知 要 的 人 员 束 必须 能 够 阅读 论文 ， 领会 论文 思路 并 
通过 代码 实现 ， 如 此 反复 下 去 。 

在 这 之 前 , 我 没有 看 到 在 机 带 学 习 算 法 方面 缩小 思考 者 和 执行 者 之 间 差 距 的 书籍 。 本 书 的 目 
的 就 是 填补 这 个 空肠， 同时 介绍 机 融 学 习 算 法 的 使 用 ， 使 得 读者 能 够 构建 更 成 功 的 应 用 。 









































天 于 本 书 


本 书 讲述 重要 的 机 融 学 习 算 法 , 并 介绍 那些 使 用 这 些 算法 的 应 用 和 工具 , 以 及 如 何在 实际 环 
境 中 使 用 它们 。 市 面 上 已 经 出 版 了 很 多 关于 机 融 学 习 的 书籍 , 大 多 数 讨 论 的 是 其 背后 的 数学 理论 ， 
很 少 涉 及 如 何 使 用 编程 语言 实现 机 天 学 习 算法 。 本 书 恰 恰 相 反 , 更 多 地 讨论 如 何 编码 实现 机 带 学 
习 算 法 ,而 尽量 减少 讨论 数学 理论 。 如 何 将 数学 矩阵 描述 的 机 右 学 习 算法 转化 为 可 以 实际 工作 的 
应 用 程序 ， 是 本 书 的 主要 目的 。 


污 者 对 象 


机 顷 学 习 是 什么 ?” 谁 需要 使 用 机 需 学 习 算 法 ? 简 而 言 之 , 机 需 学 习 可 以 揭示 数据 背后 的 真实 
含义 。 这 本 书 适合 有 数据 需要 人 处理 的 读者 ,也 适合 于 想 要 获得 并 理解 数据 的 读者 。 如 果 读 者 有 一 
些 编程 概念 〈 比 如 递归 ), 并 有 旦 了 解 一 些 数据 结构 ( 比如 树 结构 )， 那么 将 有 助 于 本 书 的 阅读 。 尺 
管 机 带 学 习 领 域 的 专家 不 一 定 能 从 本 书 获 益 ， 但 是 如 果 谈 者 具有 线性 代数 和 概率 论 的 入门 知识 ， 
那么 也 会 利于 本 书 的 阅读 。 此 外 ， 本 书 使 用 Python 语言 进行 编程 ， 它 过 去 也 被 称 作 “可 执行 的 伪 
代码 ”。 本 书 假定 读者 有 一 些 基 本 的 Python 编 程 知识 , 不 过 不 知道 如 何 使 用 Python 也 没有 关系 ,只 
要 具备 基本 的 编程 思想 ， 学 习 Python 也 不 困难 。 


数据 挖掘 十 大 鼻 ; 


数据 以 及 基于 数据 做 出 决策 是 非常 重要 的 , 本 书 内 容 也 是 来 源 于 数据 一 一 “数据 挖 所 十 大 算 
法 ”是 IEEE 数 据 控 气 国际 会 议 (ICDM ) 上 的 一 篇 论文 ，2007 年 12 月 在 Journal of Knowledge and 
Information Systems 杂 志 上 发 表 。 依 据 知 识 发 现 和 数据 挖掘 国际 会 议 (KDD ) 获奖 者 的 问卷 调查 
结果 , 论文 统计 出 排名 前 十 的 数据 挖掘 算法 。 本 书 的 基本 框架 与 论文 中 提 到 的 算法 基本 一 怪 。 陪 
明 的 读者 可 能 已 经 注意 到 , 虽然 论文 只 给 出 了 十 个 重要 的 数据 挖 据 算法 , 但 本 书 却 有 十 五 草 。 下 
面 我 会 给 出 解释， 这 里 我 们 先 看 看 排名 前 十 的 数据 挖掘 算法 。 

论文 选 出 的 机 融 学 习 算 法 包括 : C4.5 决 末 树 、K- 均 值 ( K-mean )、 文 持 问 量 机 ( SVM )、Apriori、 
最 大 期 望 算法 (EM )、PageRank 算 法 、AdaBoost 算 法 左近 邻 算法 (KNN )、 朴素 贝 叶 斯 算法 (NB ) 
和 分 类 回归 树 ( CART ) 算法 。 本 书包 含 了 其 中 的 8 个 算法 ， 没 有 包括 最 大 期 望 算法 和 PageRank 
算法 。 本 书 没 有 包括 PageRank 算 法 , 是 因为 搜索 引擎 巨头 Google 引 入 的 PageRank 算 法 已 经 在 很 多 
著作 里 得 到 了 充分 的 论述 , 没有 必要 进一步 累 述 ; 而 最 大 期 望 算法 没有 纳入 ,是 因为 涉及 太 多 的 





















































关于 本 书 ”IX 





数学 知识 ， 如 条 它 像 其 他 算法 那样 简化 成 一 音 ， 就 无 法 讲述 清楚 算法 的 核心 ,有 兴趣 的 读者 可 以 
参阅 相关 材料 。 


本 书 结构 
本 书 由 四 大 部 分 15 章 和 4 个 附录 组 成 。 





和 人 入手 


> 


一 部 分 


分 分 类 








本 书 并 没有 按照 “数据 挖 据 十 大 算法 ”的 次 序 来 介绍 机 和 学 习 算 法 。 第 一 部 分 首先 介绍 了 机 
锅 学 习 的 基础 知识 ， 然 后 讨论 如 何 使 用 机 需 学 习 算 法 进行 分 类 。 第 2 章 介 绍 了 基本 的 机 需 学 习 算 
法 : 大 近邻 算法 ; 第 3 草 是 本 书 第 一 次 讲述 决策 树 ; 第 4 章 讨 论 如 何 使 用 概率 分 布 算法 进行 分 类 以 
及 朴 系 贝 叶 斯 算法 ; 第 $ 草 介绍 的 Logistic 回 归 算 法 虽然 不 在 排名 前 十 的 列表 中 ,但 是 引入 了 算法 
优化 的 主题 ， 也 是 非常 重要 的 ， 这 一 章 最 后 还 讨论 了 如 何 处 理 数 据 集 合 中 的 缺失 值 ; 第 6 草 讨 论 

了 强大 而 流行 的 支持 向 量 机 ; 第 7 童 讨论 AdaBoost 集 成 方法 ， 它 也 是 本 书 讨论 分 类 机 器 学 习 算 法 
的 最 后 一 章 ， 这 一 章 还 讨论 了 训练 样本 非 均 匀 分 布 时 所 引发 的 非 均 衡 分 类 问题 。 
第 二 部 分 ”利用 回归 预测 数值 型 数据 

第 二 部 分 包含 两 章 ， 讨 论 连 续 型 数值 的 回归 预测 问题 。 第 8 章 主 要 讨论 了 回归 、 去 噪 和 局 部 
加 权 线 性 回归 ， 此 外 还 讨论 了 机 需 学 习 算 法 必须 考虑 的 俩 差 方 差 折 中 问题 。 第 9 章 讨 论 了 基于 树 
的 回归 算法 和 分 类 回归 树 (CART ) 算法 。 

第 三 部 分 无 监督 学 习 

前 两 部 分 讨论 的 监督 学 习 需 要 用 户 知道 日 标 值 , 简单 地 说 就 是 知道 在 数据 中 寻找 什么 。 而 第 
三 部 分 开始 讨论 的 无 监督 学 习 则 无 需 用 户 知道 搜寻 的 目标 , 只 需要 从 算法 程序 中 得 到 这 些 数据 的 
共同 特征 。 第 10 划 讨论 的 无 监督 学 习 算 法 是 K- 均 值 聚 类 算法 ; 第 11 章 研究 用 于 关联 分 析 的 Apriori 
算法 ; 第 12 章 讨论 如 何 使 用 FP-Growth 算 法 改进 关联 分 析 。 

第 四 部 分 “其 他 工具 

本 书 的 第 四 部 分 介绍 机 需 学 习 算 法 使 用 到 的 附属 工具 。 第 13 章 和 第 14 章 引入 的 两 个 数学 运算 
工具 用 于 消除 数据 噪声 ,分别 是 主 成 分 分 析 和 奇异 人 分 解 。 一 旦 机 需 学 习 算 法 处 理 的 数据 集 扩张 
到 无 法 在 一 台 计 算 机 上 完全 处 理 时 ， 就 必须 引入 分 布 式 计算 的 概念 ， 本 书 最 后 一 曹 将 介绍 
MapReduce 架 构 。 
示例 


本 书 的 许多 示例 演示 了 如 何在 现实 世界 中 使 用 机 融 学 习 算 法 , 通 第 我 们 按照 下 面 的 步骤 保证 
算法 应 用 的 正确 性 : 










































































又 关于 本 书 


(1) 确保 算法 应 用 可 以 正确 处 理 简 单 的 数据 ; 

(2) 将 现实 世界 中 得 到 的 数据 格式 化 为 算法 可 以 处 理 的 格式 ; 

(3) 将 步 又 2 得 到 的 数据 输入 到 步 又 1 的 算法 中 ， 检 验算 法 的 运行 结果 。 

千 万 不 要 忽略 前 两 个 步骤 而 直接 跳 到 步骤 3 来 检验 算法 处 理 真实 数据 的 效果 。 任 何 复杂 系统 
都 是 由 基础 工程 构成 的 , 尤其 是 算法 出 现 问题 时 , 增 量 地 搭建 系统 可 以 确保 我 们 及 时 找到 问题 出 
现 的 位 置 和 原因 。 如 采 刚 开始 就 把 这 些 堆砌 在 一 起 , 我 们 就 很 难 发 现 到 底 是 不 准确 的 算法 实现 引 
发 的 问题 还 是 数据 格式 的 问题 。 此 外 ， 本 书 在 实现 算法 的 过 程 中 ,记录 了 很 多 注意 事项 , 将 有 助 
于 读者 深入 了 解 机 器 学 习 算 法 。 


代码 约定 和 下 载 


本 书 正 文 和 程序 清单 中 的 源 代 码 都 使 用 等 宽 字 体 。 一 些 程序 清单 中 包含 了 代码 注解 ， 以 突出 
其 中 缠 仿 的 重要 概念 。 在 某 些 场合 ， 和 市 编写 的 程序 注释 会 在 程序 清单 之 后 进一步 解释 说 明 。 
本 书 所 有 源 代 三 均 可 在 英文 版 出 版 商 的 网 站 上 下 载 : www.manning.com/MachineLearningin 


中 























Action 。 


作者 在 线 


本 书 的 读者 还 可 以 访问 出 版 商 Manning 的 网 络 论坛 。 在 论坛 上 读者 可 以 评论 本 书 的 内 容 ， 讨 
论 技 术 问 题 ， 得 到 作者 或 其 他 用 户 的 帮助 。 为 了 使 用 和 订阅 论坛 ， 请 访问 
http:/www.manning.com/MachineLearninginAction , 该 网 页 包含 如 何 注册 论坛 、 如 何 获 取 帮 助 以 及 
论坛 的 行为 规则 。 

出 版 商 Manning 对 读者 承诺 ， 为 读者 和 作者 提供 讨论 的 空间 。 作 者 目 愿 参与 作者 在 线 论坛 ， 
我 们 也 不 承诺 作者 参与 论坛 讨论 的 次 数 。 建议 读者 尽量 问 作 者 具有 挑战 性 的 问题 ,以 免 浪费 作者 
的 宝 贯 时 间 。 

只 要 本 书 瑞 文 版 在 销售 ， 读 者 都 可 以 访问 喘 文 版 出 版 商 的 作者 在 线 论坛 ， 阅 读 以 前 的 讨论 
文档 。 




















Q) 读者 也 可 以 访问 图 灵 社 区 本 书页 面 提交 勘误 或 下 载 源 代码 ， 网 址 是 ituring.com.cn/book/1021。 


大 于 封面 








本 书 封面 插画 的 标题 为 “ 伊 斯 特 里 亚 人 ”(“Man from Istria”， 伊 斯 特 里 亚 是 克罗地亚 面 问 亚 
得 里 亚 海 的 一 个 很 大 半岛 )。 该 搬 画 来 自 克 罗 地 亚 斯 普 利 特 民族 博物 馆 2008 年 出 版 的 Balthasar 
Hacquet 的 《图 说 西南 及 东 汪 达尔 人 、 伊 利 里 亚 人 和 斯 拉夫 人 》( Images and Descriptions of South- 
western and Eastern Wenda, Illyrians, and Slavs ) 的 最 新 重印 版 本 。Hacquet ( 1739 一 1815 ) 是 一 名 
奥地利 内 科 医 生 及 科学 家 ,他 花费 数 年 时 间 去 人 研究 各 地 的 植物 、 地 质 和 人 种 ,这 些 地 方 包括 奥 何 
国 的 多 个 地 区 ， 以 及 伊利 里 亚 部 沙 过 去 居住 的 (罗马 各 国 的 ) 威 尼 托 地 区 、 尤 里 安 阿尔 卑 斯 山 
脉 及 西 巴 尔 干 等 地 区 。Hacquet 发 表 的 很 多 论文 和 书籍 中 都 有 手绘 插图 。 

Hacquet 出 版 物 中 丰富 多 样 的 插图 生动 地 描绘 了 200 年 前 西 阿 尔 卑 斯 和 巴尔 干 西北 地 区 的 独 
特性 和 个 体 性 。 那 时 候 相 距 几 英里 的 两 个 村 庄村 民 的 衣着 都 过 然 不 同 ， 当 有 社交 活动 或 交易 时 ， 
不 同 地 区 的 人 们 很 容易 通过 大 装 来 辨别 。 从 那 之 后 着 装 的 要 求 发 生 了 改变 , 不 同 地 区 的 多 样 性 也 
逐渐 消亡 。 现 在 很 难说 出 不 同 大 陆 的 居民 有 多 大 区 别 ， 比 如 ,现在 很 难 区 分 斯 治文 尼 亚 的 阿尔 卑 
斯 山地 区 或 巴尔 干 治 海 那些 美丽 小 镇 或 村 庄 里 的 居民 和 欧洲 其 他 地 区 或 美国 的 居民 。 

Manning 出 版 社 利 用 两 个 世纪 之 前 的 服 猴 来 设计 书籍 封面 ， 以 此 来 赞颂 计算 机 产业 所 具有 的 
创造 性 、 主 动 性 和 趣味 性 。 正如 本 书 封 面 的 图 片 一 样 , 这 些 图 片 也 把 我 们 带 回 到 过 去 的 生活 中 去 。 
































致谢 


这 是 日 前 为 止 本 书 最 容易 写 的 部 分 …… 

自 和 完 ， 我 要 感谢 Manning 出 版 社 的 工作 人 员 ， 尤 其 是 本 书 的 编辑 Troy Mott， 如 采 没 有 他 的 文 
持 和 热情 帮助 ， 本 书 不 会 出 版 。 我 还 要 感谢 Maureen Spencer， 她 对 最 终 稿 进 行 了 润色 ， 和 她 在 一 
起 工作 相当 愉快 。 

其 次 ， 我 要 感谢 Arizona 州 立 大 学 的 Jennie Si 老师 ， 她 允许 我 在 未 注册 的 情况 下 听 她 的 “离散 随 

机 系 出 ” 课 。 还 要 感谢 MIT 的 Cynthia Rudin， 他 给 我 推荐 了 论文 “Top 10 Algorithms in Data Mining”? 
(数据 挖掘 十 大 算法 ), 促成 了 本 书 的 写作 思路 .Mark Bauer Jerry Barkely Jose Zero、Doug Chang、 
Wayne Carter 以 及 Tyler Neylon 对 本 书 亦 有 页 献 ， 在 此 一 并 感谢 。 

特别 要 感谢 在 成 书 过 程 当中 提供 珍 贯 反馈 意见 的 评阅 人 , 他 们 是 : Keith Kim、 Franco Lombardo、 
Patrick Toohey、 Josef Lauri、 Ryan Riley、 Peter Venable、 Patrick Goetz、 Jeroen Benckhuijsen、 Ian 
McAllister、. Orhan Alkan Joseph Ottinger 、 Fred Law、 Karsten Strobak\ Brian Lau\ Stephen McKamey.、 
Michael Brennan、 Kevin Jackson、 John Griffin 、Sumit Pal、 Alex Alves、Justin Tyler Wiley 和 John 
Stevenson。 

技术 校对 人 员 Tricia Hoffman 和 Alex Ott 在 本 书 出 版 之 前 对 技术 内 容 进行 了 快速 审阅 ， 对 于 他 
们 的 意见 和 反馈 我 表示 感谢 。 当 阅读 书 中 的 代码 时 ，Alex 表 现 得 像 一 个 冷血 杀手 ! 谢谢 他 对 本 书 
的 页 献 。 

我 还 要 感谢 那些 通过 MEAP 购 灭 和 阅读 早期 版 本 的 谈 者 ， 以 及 对 作者 在 线 论 坛 做 出 贡献 的 人 
们 《〈 甚 至 是 发 “钓鱼 贴 ” 的 用 户 )。 如 末 没 有 这 些 人 的 帮助 ， 这 本 书 惑 不 是 现在 这 个 样子 。 

我 还 要 感谢 我 的 家 硅 在 写 书 期 间 给 予 的 文 持 。 感 谢 我 爱人 的 萌 励 以 及 在 与 书 期 间 对 我 的 非 规 
律 生活 的 宽容 。 

最 后 ， 我 要 感谢 硅谷 这 个 伟大 的 地 方 ， 我 和 我 受 人 在 这 里 工作 、 交 流 思想 和 情感 。 



































(QD Xindong Wu 等 ,“Top 10 Algorithms in Data Mining”, Journal of Knowledge and Information Systems 14, no. 1 
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分 类 





本 书 前 两 部 分 主要 探讨 监督 学 习 (supervised learning)。 在 监督 学 习 的 过 程 中 ， 我 们 只 需 
定 输入 样本 和 集 , 机 器 就 可 以 从 中 推演 出 指定 目标 变量 的 可 能 结果 。 监 督学 习 相 对 比较 简单 ， 
只 需 从 输入 数据 中 预测 合适 的 模型 ， 并 从 中 计算 出 目标 变量 的 结果 。 
监督 学 习 一 般 使 用 两 种 类 型 的 目标 变量 : 标 称 型 和 数值 型 。 标 称 型 目标 变量 的 结果 只 在 有 
限 目 标 集中 取 值 ， 如 真 与 假 、 动 物 分 类 集合 { 礁 行 类 、 鱼 类 、 哺 乳 类 、 两 栖 类 } ; 数值 型 目标 
变量 则 可 以 从 无 限 的 数值 集合 中 取 值 ， 如 0.100、42.001、1000.743 等 。 数 值 型 目标 变量 主要 
用 于 回归 分 析 ， 将 在 本 书 的 第 二 部 分 研究 ， 第 一 部 分 主要 介绍 分 类 。 

本 书 的 前 七 章 主 要 研究 分 类 算法 ， 第 2 章 讲 述 最 简单 的 分 类 算法 : 大 近邻 算法 ， 它 使 用 某 
种 距离 计算 方法 进行 分 类 ; 第 3 章 引 入 了 诀 策 树 ， 它 比较 直观 ， 容 易 理解 ， 但 是 相对 难于 实现 ; 
第 4 章 将 讨论 如 何 使 用 概率 论 建立 分 类 絮 ; 第 5 章 将 讨论 Logistic 回归 ， 如 何 使 用 最 优 参数 正 
确 地 分 类 原始 数据 ， 在 搜索 最 优 参数 的 过 程 中 ， 将 使 用 几 个 经 第 用 到 的 优化 算法 ; 第 6 章 介 绍 
了 非常 流行 的 支持 向 量 机 ; 第 一 部 分 最 后 的 第 7 章 将 介绍 元 算法 一 一 AdaBoost， 它 由 若干 个 分 
类 恬 构 成 ， 此 外 还 总 结 了 第 一 部 分 探讨 的 分 类 算法 在 实际 使 用 中 可 能 面 对 的 非 均 衡 分 类 问题 ， 
一 旦 训练 样本 某 个 分 类 的 数据 多 于 其 他 分 类 的 数据 ， 就 会 产生 非 均 衡 分 类 问题 。 


有 
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本 章 内 容 

口 机 带 学 习 的 简单 概述 
口 机 需 学 习 的 主要 任务 
口 学 习 机 带 学 习 的 原因 
口 Python 语言 的 优势 





最 近 我 和 一 对 夫妇 共 进 晚餐 ， 他 们 问 我 从 事 什么 职业 , 我 回应 道 :“ 机 带 学 习 。 妻子 回头 问 
丈夫 :“ 杂 爱 的， 什么 是 机 河和 学 习 ? ”她 的 丈夫 答 道 :“ 工 800 型 终结 者 。 在 《终结 者 》 系 列 电影 
中 , 工 800 是 人 工 知 能 扩 术 的 反面 样板 工程 。 不 过 ， 这 位 朋友 对 机 带 学 习 的 理解 还 是 有 所 人 般 差 的 。 
本 书 既 不 会 探讨 和 计算 机 程序 进行 对 话 交 流 ,， 也 不 会 与 计算 机 探讨 人 生 的 意义 。 机 融 学 习 能 让 我 
们 目 数据 集中 受到 局 发 ， 换 名 话说 ,我 们 会 利用 计算 机 来 彰显 数据 育 后 的 真实 含义 ， 这 才 是 机 双 
学 习 的 真实 含义 。 它 既 不 是 只 会 徒然 模仿 的 机 各 人 ， 也 不 是 具有 人 类 感情 的 仿生 人 。 

现今 ， 机 带 学 习 已 应 用 于 多 个 领域 , 远 超 出 大 多 数 人 的 想象 ,下面 就 是 假想 的 一 日 ， 其 中 很 
多 场景 都 会 碰 到 机 各 学 习 : 假设 你 想起 今天 是 某 位 朋友 的 生日 , 打算 通过 邮局 给 她 邮寄 一 张 生日 
质 卡 。 你 打开 浏览 可 搜索 趣味 卡 族 ,搜索 引擎 显示 了 10 个 最 相关 的 链接 。 你 认为 第 二 个 链接 最 符 
合 你 的 要 求 ， 点 击 了 这 个 链接 ， 搜 索引 擎 将 记录 这 次 点 击 ， 并 从 中 学 习 以 优化 下 次 搜索 结果 。 然 
后 , 你 检查 电子 邮件 系统 ， 此 时 垃圾 邮件 过 小 带 已 经 在 后 台 目 动 过 滤 垃 圾 广告 邮件 , 并 将 其 放 在 
垃圾 箱 内 。 接 着 你 去 商店 购买 这 张 生日 卡片 ,并 给 你 朋友 的 孩子 挑选 了 一 些 奈 布 。 绪 账 时 ， 收 银 
员 给 了 了 你 一 张 1 美 元 的 优惠 券 , 可 以 用 于 购 天 6 缸 效 的 啤酒 。 之 所 以 你 会 得 到 这 张 优 惠 券 , 是 因为 
球台 收费 软件 基于 以 前 的 统计 知识 , 认为 闫 尿布 的 人 往往 也 会 闫 啤酒。 然后 你 去 邮局 邮寄 这 张 资 
卡 ， 手写 识 别 软件 识别 出 邮寄 地 址 ， 并 将 帝 卡 发 送 给 正确 的 邮 和 车 。 当 天 你 还 去 了 贷 球 申 请 机 构 ， 
查看 自己 是 否 能 够 申请 贫 球 , 办 事 员 并 不 是 直接 给 出 结果 , 而 是 将 你 最 近 的 金融 活动 信息 输入 计 
算 机 ， 由 软件 来 判定 你 是 否 合格 。 最 后 ， 你 还 去 了 赌场 想 找 些 乐 子 ， 当 你 步 和 前门 时 ， 尾 随 你 进 
来 的 一 个 家 伙 被 突然 出 现 的 保安 给 拦 了 下 来 。“ 对 不 起 ， 索 普 先 生 ， 我 们 不 得 不 请 您 离开 赌场 。 
我 们 不 欢迎 老 千 。” 图 1-1 集 中 展示 了 使 用 到 的 机 带 学 习 应 用 。 

上 面 提 到 的 所 有 场景 , 都 有 机 天 学 习 软 件 的 存在 。 现 在 很 多 公司 使 用 机 带 学 习 软 件 改善 商业 
决 宁 、 提 高 生产 率 、 检 测 疾病 、 预 测 天 气 ， 等 等 。 随 春 技术 指数 级 增长 ， 我 们 不 仅 需要 使 用 更 好 
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的 工具 解析 当前 的 数据 ， 而 且 还 要 为 将 来 可 能 产生 的 数据 做 好 充分 的 准备 。 
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图 1-1 机 第 学 习 在 日 第 生活 中 的 应 用 ， 从 左上 和 角 按 照 顺 时 针 方 向 依次 使 用 到 的 机 各 学 习 技 
术 分 别 为 : 人 脸 识 别 、 手 写 数字 识别 、 垃 圾 邮件 过 滤 和 亚马逊 公司 的 产品 推荐 


现在 正式 进入 本 书 机 融 学 习 的 主题 。 本 章 我 们 将 自 先 介绍 什么 是 机 融 学 习 , 日 常生 活 中 何 处 
将 用 到 机 器 学 习 , 以 及 机 器 学 习 如 何 改进 我 们 的 工作 和 生活 ; 然后 讨论 使 用 机 器 学 习 解 决 问题 的 
一 般 办 法 ; 最 后 介绍 为 什么 本 书 使 用 Python 语言 来 处 理 机 器 学 习 问 题 。 我 们 将 通过 一 个 Python 模 
块 NumPy 来 简要 介绍 Python 在 抽象 和 处 理 算 阵 运算 上 的 优势 。 


1.1 何谓 机 器 学 习 


除却 一 些 无 关 紧 要 的 情况 ， 人 们 很 难 直 接 从 原始 数据 本 里 获得 所 需 信 息 。 例 如 ,对 于 垃圾 邮 
件 的 检测 ， 侦 测 一 个 单词 是 否 存在 并 没有 太 大 的 作用 ,然而 当 菜 几 个 特定 单词 同时 出 现时 ， 再 畏 
以 考察 邮件 长 度 及 其 他 因素 ， 人 们 就 可 以 更 准确 地 判定 该 邮件 是 否 为 垃圾 邮件 。 简 单 地 说 ， 机 需 
学 习 就 是 把 无 序 的 数据 转换 成 有 用 的 信息 。 

机 各 学 习 模 器 计算 机 科学 、 工 程 技 术 和 统计 学 等 多 个 学 科 , 需要 多 学 科 的 专业 知识 。 稍 后 你 
就 能 了 解 到 ， 它 也 可 以 作为 实际 工具 应 用 于 从 政治 到 地 质 学 的 多 个 领域 ,解决 其 中 的 很 多 问题 。 
甚至 可 以 这 么 说， 机 带 学 习 对 于 任何 需要 解释 并 操作 数据 的 领域 都 有 所 神 益 。 
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机 和 硕 学 : 习 用 到 了 统计 学 知识 。 在 多 数 人 看 来 , 统计 学 不 过 是 企业 用 以 炫 炊 产品 功能 的 一 种 诡计 
而 已 。( Darell Huff 曾 写 过 一 本 《如 何 使 用 统计 学 说 谎 》( How to Lie With Statistics ) 的 书 ， 鼎 具 讽 刺 
意味 的 是 ， 它 也 是 有 史 以 来 卖 得 最 好 的 统计 学 书 。) 那么 我 们 这 些 人 为 什么 还 要 利用 统计 学 呢 ? 拿 
工程 实践 来 说 , 它 要 利用 科学 知识 来 解决 具体 问题 , 在 该 领域 中 , 我 们 常会 面 对 那 种 解法 确 滑 不 变 
的 问题 。 假 如 要 编写 日 动 售 贷 机 的 控制 软件 , 那 就 最 好 能 让 它 在 任何 时 候 都 能 正确 运行 ， 而 不 必 让 
人 们 再 考虑 罕 进 的 钱 或 按 下 的 按钮 。 然 而 , 在 现实 世界 中 , 并 不 是 每 个 问题 都 存在 确定 的 解决 方案 。 
在 很 多 时 候 , 我 们 都 无 法 透彻 地 理解 问题 , 或 者 没有 足够 的 计算 资源 为 问题 精确 建立 模型 , 例如 我 
们 无 法 给 人 类 活动 的 动机 建立 模型 。 为 了 解决 这 些 问 题 ， 我 们 就 需要 使 用 统计 学 知识 。 

在 社会 科学 领域 ,正确 率 达 60% 以 上 的 分 析 被 认为 是 非常 成 功 的 。 如 采 能 准确 地 预测 人 类 当 
下 60% 的 行为 , 那 就 很 棱 了 。 这 怎么 可 以 呢 ? 难道 我 们 不 应 该 一 二 都 保持 完美 地 预测 吗 ? 如 采 真 
的 达 不 到 ， 是 否 蕊 味 着 我 们 做 错 了 什么 ? 

“能 否 实 现 个 人 的 极乐 ?由 此 生发 , 我 们 为 何不 能 准确 地 预测 人 们 所 参与 事件 的 结 采 呢 ?》” 瞧 ! 
这 些 问 题 束 十 分 经 典 。 我 们 不 可 能 对 它们 建立 一 种 精确 模型 。 如 何 能 让 众生 以 同样 的 方式 获得 驻 
福 ? 很 难 , 因为 大 家 对 荆 福 的 理解 都 是 锭 异 不 同 的。 因此， 即使 人 们 能 达到 极乐 境地 这 一 假定 是 成 
立 的 , 但 如 此 复杂 的 幸福 也 使 得 我 们 很 难 对 其 建立 正确 的 模型 。 除 了 人 类 行为 , 现实 世界 中 存在 着 
很 多 例子 ， 我 们 无 法 为 之 建立 精确 的 数学 模型 ， 而 为 了 解决 这 类 问题 ， 我 们 就 需要 统计 学 工具 。 


1.1.1 传感器 和 海量 数据 


虽然 我 们 已 从 互联 网 上 获取 了 大 量 的 人 为 数据 , 但 最 近 却 涌现 了 更 多 的 非 人 为 数据 。 传 感 带 
技术 并 不 时 散 , 但 如 何 将 它们 接 人 互联 网 确实 是 新 的 挑 成 。 有 预测 表明 , 在 本 书 出 版 后 不 久 , 20% 
的 互联 网 非 视 频 流 量 都 将 由 物理 传感器 产生 ”。 

地 震 预测 就 是 一 个 很 好 的 例子 , 传 感 硕 收集 了 海量 的 数据 , 如 何 从 这 些 数据 中 抽取 出 有 价值 
的 信息 是 一 个 非常 值得 研究 的 诛 题 。1989 年 ， 洛 马 普 列 埃 培 地 震 认 击 了 北 加 利 福 尼 亚 州 ，63 
人 死亡 ，3757 人 受伤 , 成 干 上 万 人 无 家 可 归 ; 然而 ,相同 规模 的 地 震 2010 年 袭击 了 海地 ,死亡 人 
数 却 超过 23 万 。 洛 马 ， 普 列 埃 塔 地 震 后 不 久 ， 一 份 研 究 报 告 宣称 低频 磁场 检测 可 以 预测 地 震 ”， 
但 后 续 的 研究 显示 , 最 初 的 研究 并 没有 考虑 诸多 环境 因素 ,因而 存在 着 明显 的 缺陷 “。 如 果 我 们 
想 要 重 做 这 个 研究 ， 以 便 更 好 地 理解 我 们 这 个 星球 ， 寻 找 预 测 地 震 的 方法 ， 避 免 灾 难 性 的 后 末 ， 
那么 我 们 该 如 何 入 手 才 能 更 好 地 从 事 该 研究 呢 ?” 我 们 可 以 目 己 掏 钱 购买 磁力 计 , 然后 再 灭 一 些 地 
来 安放 它们 ， 当 然 也 可 以 寻求 政府 的 帮助 ,让 他 们 来 处 理 这 些 事 。 但 即便 如 此 ,我 们 也 无 法 保证 































































































Q 参见 http://www.gartner.com/it/page.jsp?id=876512，2010 年 7 月 29 日 早晨 4 点 36 分 检索 到 的 数据 。 

@) Fraser-Smith et al., “Low-frequency magnetic field measurements near the epicenter of the Ms 7.1 Loma Prieta earthquake,” 
Geophysical Research Letters 17 ,no. 9 (August 1990), 1465—068. 

G@G) W. H. Campbell, “Natural magnetic disturbance fields, not precursors, preceding the Loma Prieta earthquake,” Journalof 
Geophysical Research 114, A0S307, doi:10.1029/2008JA013932 (2009). 

(@) J. N. Thomas, J. J. Love, and M. J. S. Johnston, “On thereported magnetic precursor of the 1989 Loma Prieta earthquake,” 
Physics of the Earth and Planetary Interiors 173, no. 3—4 (2009), 207—15. 
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磁力 计 没有 受到 任何 干扰 , 另外 , 我 们 又 该 如 何 获取 磁力 计 的 读数 呢 ? 这 些 都 不 是 理想 的 解决 方 De 
法 ， 使 用 移动 电话 可 以 低 成 本 的 解决 这 个 问题 。 
现今 市 面 上 销售 的 移动 电话 和 智能 手机 均 带 有 三 轴 磁 力 计 , 智能 手机 还 有 操作 系统 , 可 以 运 
行 我 们 编写 的 应 用 软件 , 十 几 行 代码 就 可 以 让 手机 按照 每 秒 上 百 次 的 频率 读 取 磁力 计 的 数据 。 此 
外 ,移动 电话 上 已 经 安装 了 通信 系统 ， 如 果 可 以 说 服 人 们 安装 运行 磁力 计 读 取 软件 ， 我们 就 可 以 
记录 下 大 量 的 磁力 计数 据 , 而 附带 的 代价 则 是 非常 小 的 。 除了 磁力 计 , 智能 电话 还 封装 了 很 多 其 
他 传感器 ， 如 偏 航 率 陀螺 仪 、 三 轴 加 速 计 、 温 度 传感器 和 GPS 接收 器 ， 这 些 传感器 都 可 以 用 于 测 
量 研究 。 
移动 计算 和 传感器 产生 的 海量 数据 意味 着 未 来 我 们 将 面临 着 越 来 越 多 的 数据 , 如 何 从 海量 数 
据 中 抽取 到 有 价值 的 信息 将 是 一 个 非常 重要 的 课题 。 











1.1.2 机 器 学 习 非 党 重要 


在 过 去 的 半 个 世纪 里 , 发 达 国 家 的 多 数 工 作 网 位 都 已 从 体力 劳动 转化 为 脑力 旁 动 。 过 去 的 工 
作 基 本 上 都 有 明确 的 定义 ， 类 似 于 把 物品 从 A 处 扳 到 B 人 处 ， 或 者 在 这 里 打 个 洞 ， 但 是 现在 这 类 工 
作 都 在 逐步 消失 。 现 今 的 情况 具有 很 大 的 二 义 性 ,类似 于 “最 大 化 利润 ",“ 了 最 小 化 风险 ” “找到 
最 好 的 市 场 策略 ”……: 诸如 此 类 的 任务 要 求 都 已 成 为 销 态 。 虽 然 可 从 互联 网 上 获取 到 海量 数据 ， 
但 这 并 没有 简化 知识 工人 的 工作 难度 。 针 对 具体 任务 搞 懂 所 有 相关 数据 的 意义 所 在 , 这 正成 为 基 
本 的 技能 要 求 。 正 如 谷歌 公司 的 首席 经 济 学 家 Hal Varian 所 说 的 那样 : 


“我 不 断 地 告诉 大 家 ， 未 来 十 年 最 热门 的 职业 是 统计 学 家 。 很 多 人 认为 我 是 开玩笑 ， 
谁 又 能 想到 计算 机 工程 师 会 是 20 世 纪 90 年 代 最 诱 人 的 职业 呢 ? 如 何 解释 数据 、 处 理 数 
据 、 从 中 抽取 价值 、 展 示 和 交流 数据 结果 ， 在 未 来 十 年 将 是 最 重要 的 职业 技能 ， 甚 至 是 
大 学 ， 中 学 ， 小 学 的 学 生 也 必需 具备 的 技能 ， 因 为 我 们 每 时 每 刻 都 在 接触 大 量 的 免费 信 
息 ， 如 何 理解 数据 、 从 中 抽取 有 价值 的 信息 才 是 其 中 的 关键 。 这 里 统计 学 家 只 是 其 中 的 
一 个 关键 环节 ， 我 们 还 需要 合理 的 展示 数据 、 交 流 和 利用 数据 。 我 确实 认为 ， 能 够 从 数 
据 分 析 中 领悟 到 有 价值 信息 是 非常 重要 的 。 职 业经 理 人 尤其 需要 能 够 合理 使 用 和 理解 自 
己 部 门 产生 的 数据 。 
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大 量 的 经 济 活 动 郡 依赖 于 信息 , 我 们 不 能 在 海量 的 数据 中 迷失 , 机 融 学 习 将 有 助 于 我 们 穿越 
数据 筋 需 ， 从 中 抽取 出 有 用 的 信息 。 在 开始 学 习 这 方面 的 知识 之 前 ,我 们 必须 擎 握 一 些 基本 的 术 
语 ， 以 方便 后 续 革 市 的 讨论 。 


1.2 关键 术语 


在 开始 人 研究 机 带 学 习 算法 之 前 ， 必 须 掌 握 一 些 基 本 的 术语 。 通 过 构建 下 面 的 驴 类 分 类 系统 ， 
我 们 将 接触 机 器 学 习 涉及 的 常用 术语 。 这 类 系统 非常 有 趣 ， 通常 与 机 器 学 习 中 的 专家 系统 有 关 。 
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开发 出 能 够 识别 马 类 的 计算 机 软件 ， 马 类 学 者 驶 可 以 退休 了 。 因 为 马 类 学 者 是 研究 乌 类 的 专家 ， 
因此 我 们 说 创建 的 是 一 个 专家 系统 。 

表 1-1 是 我 们 用 于 区 分 不 同 鸟 类 需要 使 用 的 四 个 不 同 的 属性 值 ， 我 们 选用 体重 、 流 展 、 有 无 
脚 路 以 及 后 至 颜色 作为 评测 基准 。 现实 中 , 你 可 能 会 想 测量 更 多 的 值 。 通常 的 做 法 是 测量 所 有 可 
测 属性 ， 而 后 再 挑选 出 重要 部 分 。 下 面 测量 的 这 四 种 值 称 之 为 特征 ,也 可 以 称 作 属 性 , 但 本 书 一 
律 将 其 称 为 特征 。 表 1-1 中 的 每 一 行 部 是 一 个 具有 相关 特征 的 实例 。 


表 1-1 基于 四 种 特征 的 乌 物种 分 类 表 
































体重 〈 克 ) 愤 展 《厘米 ) 脚 ” 中 后 背 颜色 种 属 
| 1000.1 125.0 无 标 色 红 尾 父 
2 3000.7 200.0 无 灰色 Eg 
3 3300.0 220.3 无 灰色 警 鹰 
4 4100.0 136.0 有 人 普通 潜 乌 
5 3.0 11.0 无 绿色 瑰丽 蜂鸟 
6 570.0 75.0 无 黑色 象牙 喉 吸 木马 


表 1-1 的 前 两 种 特征 是 数值 型 ， 可 以 使 用 十 进 制 数字 ; 第 三 种 特征 (是否 有 脚 足 ) 是 二 值 型 ， 
只 可 以 取 0 或 1; 第 四 种 特征 〈 后 育 颜色 ) 是 基于 目 定 义 调 色 板 的 枚 举 类 型 ， 这 里 仅 选 择 一 些 滑 用 
色彩 。 如 东 仅 仅 利用 种 见 的 七 色 作 为 评测 特征 ， 后 育 颜 色 也 可 以 是 一 个 整数 。 当 然 在 七 色 之 中 选 
择 一 个 作为 后 背 颜 色 有 些 太 简 单 了 ， 但 作为 专家 系统 的 演示 用 例 ， 这 已 经 足够 了 。 

如 末 你 看 到 了 一 只 象牙 嗓 吸 木 乌 , 请 马上 通知 我 ! 而 且 千 万 不 要 告诉 任何 人 。 在 我 到 达 之 前 ， 
一 定 要 看 住 它 ， 别 让 它 飞 跑 了 。( 任何 发 现 活 的 象牙 嗓 吸 木 乌 的 人 都 可 以 得 到 5 万 美元 的 奖励 。) 

机 需 学 习 的 主要 任务 就 是 分 类 。 本 闻 我 们 讲述 如 何 使 用 表 1-1 进 行 分 类 ， 标 识 出 象牙 喉 吸 木 
鸟 从 而 获取 5 万 美元 的 奖励 。 大 家 都 想 从 众多 其 他 马 类 中 分 辨 出 旨 牙 喉 吸 木 乌 ， 并 从 中 获 利 。 最 
简单 的 做 法 是 安 厄 一 个 喂食 般 ， 然 后 雇用 一 位 乌 关 学 者 ,观察 在 附近 进食 的 乌 类 。 如 果 发 现 角 牙 
只 吸 木 马 ， 则 通知 我 们 。 这 种 方法 太 昂 贯 了 ， 而 且 专 家 在 同一 时 间 只 能 出 现在 一 个 地 方 。 我 们 可 
以 目 动 化 处 理 上 述 过 程 , 安 净 多 个 这 有 照相 机 的 喂食 融 , 同时 接 和 人 计算 机 用 于 标识 前 来 进食 的 乌 。 
同样 我 们 可 以 在 喂食 希 中 放置 称 重 仪 希 以 获取 马 的 体重 ， 利 用 计算 机 视 党 技术 来 提取 乌 的 翅 长 、 
脚 的 类 型 和 后 育 色 彩 。 假 定 我 们 可 以 得 到 所 需 的 全 部 特征 信息 , 那 该 如 何 判 断 习 入 进食 末 的 乌 是 
不 是 象牙 吧 叹 木 鸟 呢 ?” 这 个 任务 束 是 分 类 , 有 很 多 机 带 学 习 算 法 非常 善于 分 类 。 本 例 中 的 类 别 就 
是 乌 的 物种 ， 更 具体 地 说 ,就 是 区 分 是 否 为 象牙 吧 叹 木 岛 。 

最 终 我 们 决定 使 用 茶 个 机 融 学 习 算法 进行 分 类 , 首先 需要 做 的 是 算法 训练 , 即 学 习 如 何 分 类 。 
通 凋 我 们 为 算法 输入 大 量 已 分 类 数据 作为 算法 的 训练 集 。 训 练 集 是 用 于 训练 机 融和 学 : 习 算 法 的 数据 
样本 集合 ， 表 1-1 是 包含 六 个 训练 样本 的 训练 集 ， 每 个 训练 样本 有 4 种 特征 、 一 个 目标 变量 ， 如 图 
1-2 所 示 。 目 标 变量 是 机 融 学 习 算 法 的 预测 结 东 ,在 分 关 算 法 中 目标 变量 的 类 型 通常 是 标 称 型 的 ， 
而 在 回归 算法 中 通 各 是 连续 型 的 。 训 练 样本 集 必须 确定 知道 目标 变量 的 值 ,以 便 机 带 学 习 算 法 可 
以 发 现 特征 和 目标 变量 之 间 的 关系 。 正 如 前 文 所 述 ， 这 里 的 目标 变量 是 物种 ， 也 可 以 简化 为 标 
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称 型 的 数值 。 我 们 通常 将 分 类 问题 中 的 目标 变量 称 为 类 别 ， 并 假定 分 类 问题 只 存在 有 限 个 数 的 





类 别 
Weight Wingspan Webbed feet? Back color Species 
1000.1 125.0 No Brown Buteo jamaicensis 
3000.7 200.0 No Gray Sagittarius serpentarius 
特征 目标 变量 





图 1-2 ”特征 和 标识 的 目标 变量 


注意 ”特征 或 者 属性 通常 是 训练 样本 集 的 列 ， 它 们 是 独立 测量 得 到 的 结果 ， 多 个 特征 联系 在 一 
起 共同 组 成 一 个 训练 样本 。 


为 了 测试 机 带 学 习 算 法 的 效果 ,通常 使 用 两 套 独立 的 样本 集 : 训练 数据 和 测试 数据 。 当 机 帮 
学 习 程 序 开始 运行 时 , 使 用 训练 样本 集 作为 算法 的 输入 ,训练 完成 之 后 输入 测试 样本 。 输 入 测试 
样本 时 并 不 提供 测试 样本 的 目标 变量 , 由 程序 决定 样本 属于 哪个 类 别 。 比 较 测 试 样本 预测 的 目标 
变量 值 与 实际 样本 类 别 之 间 的 差别 , 就 可 以 得 出 算法 的 实际 精确 度 。 本 书 的 后 续 莉 广 将 会 引入 更 
好 地 使 用 测试 样本 和 训练 样本 信息 的 方法 ， 这 里 就 不 再 详 述 。 

假定 这 个 马 类 分 类 程序 , 经 过 测试 满足 精确 度 要 求 , 是 否 我 们 就 可 以 看 到 机 融 已 经 学 会 了 如 
何 区 分 不 同 的 鸟 类 了 呢 ? 这 部 分 工作 称 之 为 知识 表示 ， 某 些 算 法 可 以 产生 很 容易 理解 的 知识 表 
示 ， 而 某 些 算法 的 知识 表示 也 许 只 能 为 计算 机 所 理解 。 知 识 表 示 可 以 采用 规则 集 的 形式 ， 也 可 以 
采用 概率 分 布 的 形式 ， 甚 至 可 以 是 训练 样本 集中 的 一 个 实例 。 在 某 些 场合 中 ， 人 们 可 能 并 不 想 建 
立 一 个 专家 系统 ， 而 仅仅 对 机 融 学 习 算 法 获取 的 信息 感 兴趣 。 此 时 ,采用 何 种 方式 表示 知识 就 显 
得 非 第 重要 了 。 

本 市 介绍 了 机 带 学 习 领 域 涉及 的 关键 术语 , 后 续 革 市 将 会 在 必要 时 引入 其 他 的 术语 , 这 里 就 
不 再 进一步 说 明 。 下 一 节 将 会 介绍 机 带 学 习 算 法 的 主要 任务 。 


1.3 机 器 学 习 的 主要 任务 


本 市 主要 介绍 机 可 学 习 的 主要 任务 ,并 给 出 一 个 表格 ， 玫 助 该 者 将 机 省 学 习 算 法 转化 为 可 实 
际 运 作 的 应 用 程序 。 

上 市 的 例子 介绍 了 机 笑 学 习 如 何 解 决 分 类 问题 , 它 的 主要 任务 是 将 实例 数据 划分 到 合适 的 分 
类 中 。 机 各 学 习 的 为 一 项 任务 是 回归 , 它 主要 用 于 预测 数值 型 数据 。 大 多 数 人 可 能 名 见 过 回归 的 
例子 一 一 数据 拟 合 曲线 : 通过 给 定数 据点 的 最 优 拟 合 曲线 。 分 类 和 回归 属于 监督 字 习 ， 之 所 以 称 
之 为 监督 和 学习， 是 因为 这 类 算法 必须 知道 预测 什么 ， 即 目标 变量 的 分 类 信息 。 
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与 鉴 督 学 习 相 对 应 的 是 无 监督 学 习 ， 此 时 数据 没有 类 别 信 息 ， 也 不 会 给 定 目标 值 。 在 无 监督 
学 习 中 ,将 数据 集合 分 成 由 类 似 的 对 象 组 成 的 多 个 类 的 过 程 被 称 为 聚 类 ; 将 寻找 描述 数据 统计 值 
的 过 程 称 之 为 密度 估计 。 此 外 ,无 监督 学 习 还 可 以 减少 数据 特征 的 维度 ， 以 便 我 们 可 以 使 用 二 维 
或 三 维 图 形 更 加 直观 地 展示 数据 信息 。 表 1-2 列 出 了 机 器 学 习 的 主要 任务 ， 以 及 解决 相应 问题 的 
算法 。 








表 1-2 ”用 于 执行 分 类 、 回 归 、 聚 类 和 密度 估计 的 机 器 学 习 算 法 


-近邻 算法 线性 回归 

朴素 贝 叶 斯 算法 局 部 加 权 线 性 回归 

文 持 向 量 机 Ridge 回归 

决策 树 Lasso 最 小 回归 系数 估计 
无 监督 学 习 的 用 途 

K- 均 人 最 大 期 户 算 法 

DBSCAN Parzen 窗 设计 








你 可 能 已 经 注意 到 表 1-2 中 的 很 多 算法 都 可 以 用 于 解决 同样 的 问题 ， 有 心 人 肯定 会 问 :“ 为 什 
么 解决 同一 个 问题 存在 四 种 方法 ?精通 其 中 一 种 算法 ,是否 可 以 处 理 所 有 的 类 似 问题 ? ”本 书 的 
下 一 市 将 回答 这 些 疑 问 。 


1.4 ”如 何 选 择 合适 的 算法 


从 表 1-2 中 所 列 的 算法 中 选择 实际 可 用 的 算法 ， 必 须 考虑 下 面 两 个 问题 : 一 、 使 用 机 顺 学 习 
算法 的 目的 ， 想 要 算法 完成 何 种 任务 ， 比 如 是 预测 明天 下 两 的 概率 还 是 对 投票 者 按照 兴趣 分 组 ; 
二 、 需 要 分 析 或 收集 的 数据 是 什么 。 

首先 考虑 使 用 机 需 学 习 算 法 的 目的 。 如 果 想 要 预测 目标 变量 的 值 , 则 可 以 选择 监督 学 习 算 法 ， 
否则 可 以 选择 无 监督 学 习 算法 。 确 定 选择 监督 学 习 算 法 之 后 ,需要 进一步 确定 目标 变量 类 型 ， 如 
果 目 标 变 量 是 离散 型 ， 如 是 / 否 、1/2/3、A/B/C 或 者 红 / 黄 / 黑 等 ， 则 可 以 选择 分 类 融 算 法 ; 如 果 目 
标 变量 是 连续 型 的 数值 ， 如 0.0 ~ 100.00、-9959 ~ 999 或 者 +eo ~ -oo 等 ， 则 需要 选择 回归 算法 。 

如 果 不 想 预测 目标 变量 的 值 , 则 可 以 选择 无 监督 学 习 算 法 。 进 一 步 分 析 是 否 需 要 将 数据 划分 
为 离散 的 组 。 如 果 这 是 唯一 的 需求 ,， 则 使 用 聚 类 算法 ; 如 果 还 需要 估计 数据 与 每 个 分 组 的 相似 程 
度 ， 则 需要 使 用 密度 佑 计算 法 。 

在 大 多 数 情 况 下 ， 上 面 给 出 的 选择 方法 都 能 帮助 读者 选择 恰当 的 机 器 学 习 算法 , 但 这 也 并 非 
一 成 不 变 。 第 9 章 我 们 就 会 使 用 分 类 算法 来 处 理 回 归 问 题 ， 显 然 这 将 与 上 面 监督 学 习 中 处 理 回 归 
问题 的 原则 不 同 。 

其 次 需要 考虑 的 是 数据 问题 。 我 们 应 该 充分 了 解数 据 ， 对 实际 数据 了 解 得 越 充 分 ， 越 容易 创 
建 符合 实际 需求 的 应 用 程序 。 主 要 应 该 了 解数 据 的 以 下 特性 : 特征 值 是 离散 型 变量 还 是 连续 型 变 
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量 ， 特 征 值 中 是 个 存在 缺失 的 值 ， 何 种 原因 造成 缺失 值 ， 数 据 中 是 否 存在 异 关 值 ， 有 个 特征 发 生 
的 频率 如 何 ( 是 否 罕见 得 如 同 海 的 捞 针 )， 等 等 。 充 分 了 解 上 面 提 到 的 这 些 数 据 特性 可 以 缩短 选 
择机 带 学 习 算法 的 时 间 。 

我 们 只 能 在 一 定 程度 上 缩小 算法 的 选择 范围 , 一 般 并 不 存在 最 好 的 算法 或 者 可 以 给 出 最 好 结 
果 的 算法 ,同时 还 要 尝试 不 同 算法 的 执行 效果 。 对 于 所 选 的 每 种 算法 ,都 可 以 使 用 其 他 的 机 各 学 
习 技 术 来 改进 其 性 能 。 在 处 理 输入 数据 之 后 ,两 个 算法 的 相对 性 能 也 可 能 会 发 生变 化 。 后续 革 市 
我 们 将 进一步 讨论 此 类 问题 ， 一 般 说 来 发 现 最 好 算法 的 关键 环 市 是 反复 试 错 的 迭代 过 程 。 

机 儒学 习 算法 虽然 各 不 相同 , 但 是 使 用 算法 创建 应 用 程序 的 步骤 却 基 本 类 似 ， 下 一 他 将 介绍 
如 何 使 用 机 融 学 习 算法 的 通用 步骤 。 


1.5 开发 机 器 学 习 应 用 程序 的 步 又 


本 书 学 习 和 使 用 机 带 学 习 算法 开发 应 用 程序 ， 通 常人 加 循 以 下 的 步 又 。 

(1) 收集 数据 。 我 们 可 以 使 用 很 多 方法 收集 样本 数据 ， 如 : 制作 网 络 爬 虫 从 网 站 上 抽取 数据 、 
从 RSS 有 反馈 或 者 API 中 得 到 信息 、 设 备 发 送 过 来 的 实测 数据 ( 风速 、 血 糖 等 )。 提 取 数 据 的 方法 非 
第 多 ， 为 了 方 省 时 间 与 精力 ， 可 以 使 用 公开 可 用 的 数据 源 。 

(2) 准备 输入 数据 。 得 到 数据 之 后 ,还 必须 确保 数据 格式 符合 要 求 ， 本 书 采 用 的 格式 是 Python 
语言 的 List。 使 用 这 种 标准 数据 格式 可 以 融合 算法 和 数据 源 ， 方 便 匹 配 操 作 。 本 书 使 用 Python 语 
言 构造 算法 应 用 ， 不 熟悉 的 读者 可 以 学 习 附 录 A。 

此 外 还 需要 为 机 融 学 习 算 法 准备 特定 的 数据 格式 ， 如 某 些 算法 要 求 特 征 值 使 用 特定 的 格式 ， 
- 些 算法 要 求 日 标 变 量 和 特征 值 是 字符 串 类 型 ,而 男 一 些 算法 则 可 能 要 求 是 整数 类 型 。 后 续 章 市 
我 们 还 要 讨论 这 个 问题 ,但 是 与 收集 数据 的 格式 相 比 ， 处 理 特殊 算法 要 求 的 格式 相对 从 单 得 多 。 

(3) 分 析 输 入 数据 。 此 步 又 主要 是 人 工分 析 以 前 得 到 的 数据 。 为 了 确保 前 两 步 有 效 ， 最 简单 
的 方法 是 用 文本 编辑 带 打 开 数 据 文 件 ,查看 得 到 的 数据 是 否 为 空 值 。 此 外 , 还 可 以 进一步 浏览 数 
据 ， 分 析 是 否 可 以 识别 出 模式 ; 数据 中 是 否 存在 明显 的 异 第 值 ， 如 菏 些 数据 点 与 数据 集中 的 其 他 
值 存在 明显 的 差异 。 通 过 一 维 、 二 维 或 三 维 图 形 展示 数据 也 是 不 错 的 方法 , 然而 大 多 数 时 候 我 们 
得 到 数据 的 特征 值 都 不 会 低 于 三 个 , 无 法 一 次 图 形 化 展示 所 有 特征 。 本 书 的 后 绪 草 市 将 会 介绍 提 
炼 数据 的 方法 ， 使 得 多 维 数据 可 以 压缩 到 二 维 或 三 维 ， 方 便 我 们 图 形 化 展示 数据 。 

这 一 步 的 主要 作用 是 确保 数据 集中 没有 垃圾 数据 。 如 果 是 在 产品 化 系统 中 使 用 机 天 学 习 算法 
并 且 算 法 可 以 处 理 系统 产生 的 数据 格式 ， 或 者 我 们 信任 数据 来 源 ， 可 以 直接 跳 过 第 3 步 。 此 步 又 
需要 人 工 干 预 ， 如 条 在 目 动 化 系统 中 还 需要 人 工 干预 ， 显 然 就 降低 了 系统 的 价值 。 

(4) 训练 萌 法 。 机 需 学 习 算 法 从 这 一 步 才 真正 开始 学 习 。 根 据 算法 的 不 同 ， 第 4 步 和 第 5 步 是 
机 春 学 习 算 法 的 核心 。 我 们 将 前 两 步 得 到 的 格式 化 数据 输入 到 算法 ,从 中 抽取 知识 或 信息 。 这 里 
得 到 的 知识 需要 存储 为 计算 机 可 以 处 理 的 格式 ， 方便 后 续 步 又 使 用 。 

如 朱 使 用 无 监督 学 习 算 法 ,由 于 不 存在 目标 变量 值 ， 故 而 也 不 需要 训练 算法 ， 所 有 与 算法 相 
天 的 内 容 神 集中 在 第 5 步 。 
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(5) 测试 算法 。 这 一 步 将 实际 使 用 第 4 步 机 各 学 习 得 到 的 知识 信息 。 为 了 评估 算法 ,必须 测试 算 
法 工作 的 效 末 。 对 于 监督 学 习 ,， 必须 已 知 用 于 评 信和 算法 的 目标 变量 值 ; 对 于 无 监督 学 习 , 也 必须 用 
其 他 的 评测 手段 来 检验 算法 的 成 功率 。 无 论 哪 种 情形 , 如 采 不 满意 算法 的 输出 结 末 , 则 可 以 回 到 第 
4 步 ， 改 正 并 加 以 测试 。 问 题 肖 常会 跟 数 据 的 收集 和 准备 有 关 ， 这 时 你 就 必须 跳 回 第 1 步 重 新 开始 。 

(6) 使 用 算法 。 将 机 带 学 习 算 法 转换 为 应 用 程序 ， 执 行 实际 任务 ， 以 检验 上 述 步 又 是 否 可 以 
在 实际 环境 中 正 稼 工作 。 此 时 如 有 果 碰 到 新 的 数据 问题 ， 同 样 需要 重复 执行 上 述 的 步骤 。 

下 节 我 们 将 讨论 实现 机 器 学 习 算 法 的 编程 语言 Python。 之 所 以 选择 Python ， 是 因为 它 上 只 有 其 
他 编程 语言 不 具备 的 优势 , 如 易于 理解 、 丰 富 的 函数 库 ( 尤其 是 矩阵 操作 )、 活路 的 开发 者 社区 等 。 









































1.6 ” Python 语言 的 优势 


基于 以 下 三 个 原因 , 我 们 选择 Python 作为 实现 机 融 学 习 算 法 的 编程 语言 : (1) Python 的 语法 清 
晰 ; (2) 多 于 操作 纯 文 本 文件 ; (3) 使 用 广泛 ,存在 大 量 的 开发 文档 。 


1.6.1 可 执行 伪 代 码 


Python 具有 清晰 的 霹 法 结构 ， 大 家 也 把 它 称 作 可 执行 伪 代 码 〈executable pseudo-code )。 黑 认 
安 半 的 Python 开发 环境 已 经 附 这 了 很 多 高 级 数据 类 型 ， 如 列表 、 元 组 、 字 典 、 人 集合、 队列 等 ,无 
需 进一步 编程 就 可 以 使 用 这 些 数据 类 型 的 操作 。 使 用 这 些 数据 类 型 使 得 实现 抽象 的 数学 概念 非常 
简单 。 此 外 ， 读 者 还 可 以 使 用 自己 熟悉 的 编程 风格 ， 如 面 回 对 象 编程 、 面 品 过程 编 程 、 或 者 消 数 
式 编 程 。 不 熟悉 Python 的 该 者 可 以 参阅 附录 A， 该 附录 详细 介绍 了 Python 语言 、Python 使 用 的 数 
据 类 型 以 及 安装 指南。 

Python 语言 处 理 和 操作 文本 文件 非常 简单 ， 非 党 易于 处 理 非 效 信 型 数据 。Python 霹 言 提 供 了 
丰富 的 正则 表达 式 孙 数 以 及 很 多 访问 Web 页 面 的 函数 库 ， 使 得 从 HTML 中 提取 数据 变 得 非常 简单 
直观 。 























1.6.2 ”Python 比较 流行 


Python 语言 使 用 广泛 ， 代 人 码 范 例 也 很 多 ， 便 于 该 者 快速 学 习 和 掌握 。 此 外 ,在 开发 实际 应 用 
程序 时 ， 也 可 以 利用 丰富 的 模块 库 缩 短 开 发 周期 。 

在 科学 和 金融 领域 ，Python 语 言 得 到 了 广泛 应 用 。SciPy 和 NumPy 等 许多 科学 吨 数 库 都 实现 
了 回 量 和 和 抢 阵 操作 , 这 些 冰 数 库 增 加 了 代码 的 可 庶 性 , 学 过 线性 代数 的 人 都 可 以 看 懂 代 码 的 实际 
功能 。 男 外 ， 科 学 函数 库 SciPy 和 NumPy 使 用 底层 语言 ( C 和 Fortran ) 编写 ， 提 高 了 相关 应 用 程序 
的 计算 性 能 。 本 书 将 大 量 使 用 Python 的 NumPy。 

Python 的 科学 工具 可 以 与 绘图 工具 Matplotlib 协 同 工 作 。Matplotlib 可 以 绘制 2D、3D 图 形 ， 也 
可 以 处 理科 学 人 研究 中 经 常 使 用 到 的 图 形 ， 所 以 本 书 也 将 大 量 使 用 Matplotlib。 

Python 开发 环境 还 提供 了 交互 式 shell 环 境 ， 人 允许 用 户 开 发 程序 时 查看 和 检测 程序 内 容 。 
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Python 开发 环境 将 来 还 会 集成 Pylab 模 块 ， 它 将 NumPy、SciPy 和 Matplotlib 合 并 为 一 个 开发 环 
境 。 在 本 书写 作 时 ，Pylab 还 没有 并 人 Python 环境 ,但 是 不 远 的 将 来 我 们 肯定 可 以 在 Python 开发 环 
境 找到 它 。 





1.6.3 ”Python 语言 的 特色 


诸如 MATLAB 和 Mathematica 等 高 级 程序 语言 也 允许 用 户 执行 矩阵 操作 ，MATLAB 甚 至 还 有 
许多 内 骸 的 特征 可 以 轻松 地 构造 机 帮 学 习 应 用 , 而 且 MATLAB 的 运算 速度 也 很 快 。 然 而 MATLAB 
的 不 足 之 处 是 软件 费用 太 高 , 单个 软件 授权 就 要 花费 数 千 美元 。 虽 然 也 有 适合 MATLAB 的 第 三 方 
插件 ,但 是 没有 一 个 有 影响 力 的 大 型 开源 项 目 。 

Java 和 C 等 强 类 型 程序 设计 语言 也 有 和 矩阵 数学 库 ， 然 而 对 于 这 些 程序 设计 语言 来 说 ， 最 大 的 
问题 是 即使 完成 简单 的 操作 也 要 编写 大 量 的 代码 。 程 序 员 首先 需要 定义 变量 的 类 型 ， 对 于 Java 来 
说 ， 每 次 封装 属性 时 还 需要 实现 getter 和 setter 方 法 。 另 外 还 要 记 着 实现 子 类 ， 即 使 并 不 想 使 用 子 
类 ,也 必须 实现 子 类 方法 。 为 了 完成 一 个 简单 的 工作 ,我 们 必须 花费 大 量 时 间 编 写 了 很 多 无 用 宛 
长 的 代码 。Python 语 言 则 与 Java 和 C 完 全 不 同 ， 它 清晰 简练 ， 而 且 易 于 理解 ， 即 使 不 是 编程 人 员 
也 能 够 理解 程序 的 含义 ， 而 Java 和 C 对 于 非 编程 人 员 则 像 天 书 一 样 难于 理解 。 


所 有 人 在 小 学 二 年 级 已 经 学 会 了 写作 ， 然 而 大 多 数 人 必须 从 事 其 他 更 重要 的 工作 。 
一 鲍 比 . 奈 特 


也 许 某 一 天 ， 我 们 可 以 在 这 人 句 话 中 将 “写作 ”替代 为 “编写 代码 ”， 虽然 有 些 人 对 于 编写 代 
码 很 感 兴趣 ,但 是 对 于 大 多 数 人 来 说 ,编程 仅 古 完成 其 他 任务 的 工具 而 已 。Python 语 言 是 局 级 编 
程 培 言 , 我 们 可 以 花费 更 多 的 时 间 人 处 理 数 据 的 内 在 含义 , 而 无 须 论 费 太 多 精力 解决 计算 机 如 何 得 
到 数据 结果 。Python 语 言 使 得 我 们 很 容易 表达 自己 的 目的 。 












































1.6.4 ”Python 语言 的 缺点 


Python 语言 唯一 的 不 足 是 性 能 问题 。Python 程 序 运 行 的 效率 不 如 Java 或 者 C 代 人 码 高 , 但 是 我 们 
可 以 使 用 Python 调用 C 编 译 的 代码 。 这 样 ， 我们 就 可 以 同时 利用 C 和 Python 的 优点 , 逐步 地 开发 机 
顺 学 习 应 用 程序 。 我 们 可 以 首先 使 用 Python 编写 实验 程序 ， 如 果 进 一 步 想 要 在 产品 中 实现 机 天 学 
习 , 转换 成 C 代 码 也 不 困难 。 如 果 程 序 是 按照 模块 化 原则 组 织 的 , 我 们 可 以 先 构 造 可 运行 的 Python 
程序 , 然后 再 逐步 使 用 C 代 码 蔡 换 核 心 代码 以 改进 程序 的 性 能 .C++ Boost 库 就 适合 完成 这 个 任务 ， 
其 他 类 似 于 Cython 和 PyPy 的 工具 也 可 以 编写 强 类 型 的 Python 代码 ， 改 进 一 般 Python 程序 的 性 能 。 

如 条 程序 的 算法 或 者 思想 有 和 缺陷, 则 无 论 程序 的 性 能 如 何 ， 都 无 法 得 到 正确 的 结 末 。 如 采 解 
决 问题 的 思想 存在 问题 , 那么 单纯 通过 提高 程序 的 运行 效率 , 扩展 用 户 规模 都 无 法 解决 这 个 核心 
问题 。 从 这 个 角度 来 看 ，Python 快 速 实现 系统 的 优势 就 更 加 明显 了 ,我 们 可 以 快速 地 检验 算法 或 
者 思想 是 否 正 确 ， 如 果 需 要 ， 骨 进一步 优化 代码 。 

本 节 大 致 介绍 了 本 书 选 择 Python 博 言 实现 机 天 学 习 算 法 的 原因 ， 下 书 我 们 将 学 习 Python 语 言 
的 shell 开 发 环境 以 及 NumPy 晒 数 库 。 
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1.7 NumPy 函数 库 基 础 


机 和 需 学 习 算法 涉及 很 多 线性 代数 知识 ， 因 此 本 书 在 使 用 Python 语言 构造 机 需 学 习 应 用 时 ， 会 经 
稼 使 用 NumPy 困 数 库 。 如 果 不 熟 悉 线 性 代数 也 不 用 着 急 ， 这 里 用 到 线性 代数 只 是 为 了 人 简化 不 同 的 数 
据点 上 执行 的 相同 数学 运算 。 将 数据 表示 为 矩阵 形式 ， 只 需要 执行 简单 的 矩阵 运算 而 不 需要 复杂 的 
循环 操作 。 在 你 使 用 本 书 开始 学 习 机 器 学 习 算 法 之 前 ， 必 须 确保 可 以 正确 运行 Python 开 发 环境 ， 同 
时 正确 安装 了 NumPy 滑 数 库 。NumPy 捕 数 库 是 Python 开 发 环境 的 一 个 独立 模块 ， 而 且 大 多 数 Python 
发 行 版 没有 默认 安装 NumPy 卫 数 库 , 因此 在 安装 Python 之 后 必须 单独 安装 NumPy 吨 数 库 。 在 Windows 
命令 行 提 示 符 下 输入 c:\Python27\python.exe， 在 Linux 或 者 Mac OS 的 终端 上 输入 python ， 进 入 
Python shell 开 发 环境 。 今后 ,一旦 看 到 下 述 提示 和 从 就 意味 着 我 们 已 经 进入 Python shell 开 发 环境 : 
































3 
在 Python shell 开 发 环境 中 输入 下 列 命令 : 
>>> from numpy limport * 


上 述 命令 将 NumPy 函 数 库 中 的 所 有 模块 引入 当前 的 命名 空间 。Mac OS 上 输出 结果 如 图 1-3 所 示 。 





Terminal 一 Python 一 79x19 


Last login: Mon Nov 22 638:35:55 on ttySsabb 日 
peter-harringtons-imac:~ pbharrin$ python 

Python 2.6.1 (r261:67515, Feb 11 28618, 86:51:29) 

[GCC 4.2.1 tApple Inc. build 5646)] on darwin 

Type "help", "copyright", "credits" or "license" for more information. 

>>> from numpy import * 

>>> || 





图 1-3 ”命令 行 局 动 Python 并 在 Python shell 开 发 环境 中 导入 模块 
然后 在 Python shell 开 发 环境 中 输入 下 述 命令 : 


>>> random.rand (4,4) 
array([[ 0.70328595, 0 0 
[ 0.9571294 ， 0 0 
[ 0.05431627, 0.01396732,， 0.60304292 ， 
[ 0.10648952 ， 0.27317698 ， 0.45582919,， 


0 

0 

0 

0 
上 述 命 令 构造 了 一 个 4 x 4 的 随机 数组 ,因为 产生 的 是 随机 数组 , 不 同 计算 机 的 输出 结果 可 能 与 上 
述 结 来 完全 不 同 。 


.07061094j] ， 
.5257719 ]， 
.9362288j ， 
.04881605] ] ) 


-40951383， 
.97588446, 


.7475052 ， 
.2728084 ， 








NumPy 和 矩阵 与 效 组 的 区 别 
NumPy 函 数 库 中 存在 两 种 不 同 的 数据 类 型 〈 短 阵 matrix 和 数组 array )， 都 可 以 用 于 处 理 行 
列表 示 的 数字 元 素 。 虽然 它们 看 起 来 很 相似 , 但 是 在 这 两 个 数据 类 型 上 执行 相同 的 数学 运算 可 
能 得 到 不 同 的 结果 ， 其 中 NumPy 函 数 库 中 的 matrix 与 MATLAB 中 matrices 等 价 。 


调用 mat () 函数 可 以 将 数组 转化 为 矩阵 ， 输 入 下 述 命令 : 
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>>> randMat = mat (random.rand (4,4)) 


由 于 使 用 随机 也 数 产生 和 矩 泗 ， 不 同 计算 机 上 输出 的 值 可 能 略 有 不 同 : 

>>> randMat .I 

matrix([[ 0.24497106, 1.75854497, -1.77728665, -0.0834912 ] ， 
[ 1.49792202, 2.12925479, 1.32132491, -9.75890849],，, 
[ 2.76042144, 1.67271779, -0.29226613,，, -8.45413693],， 
[-2.03011142, -3.07832136, 1.4420448 ， 9.62598044]]) 


.I 操 作 符 实 现 了 年 阵 求 逆 的 运算 。 非 常 简 单 吧 ? 没有 NumPy 库 ， Python 也 不 能 这 么 容易 算出 
来 矩阵 的 逆 运 算 。 不 记得 或 者 没 学 过 和 矩阵 求 逆 也 没关系 ,NumPy 库 帮 我 们 做 完了 , 执行 下 面 的 命 
令 存 储 逆 矩阵 : 

>>> invRandMat = randMat.I 
接 春 执行 惩 阵 乘法 ， 得 到 和 矩阵 与 其 逆 怎 阵 相 乘 的 结 朱 : 


>>> randMat*ijnvRandMat 





dO | 一 一 | Od 














matrix([[ 1 


.00000000e+00, 


0.00000000e+00， 


.22044605e-16, 


1.77635684e-15] ， 

[ 0.00000000e+00 ， 1.00000000e+00, 0.00000000e+00 ， 
0.00000000e+00] ， 

[ 0.00000000e+00 ， 4.44089210e-16, 1.00000000e+00, 
-8.88178420e-16] ， 

[ -2.22044605e-16， 0.00000000e+00， 1.11022302e-16, 


1.00000000e+00]] ) 
结果 应 该 是 单位 矩阵 ， 除了 对 角 线 元 素 是 1，4 x 4 矩阵 的 其 他 元 素 应 该 全 是 0。 实 际 输出 结果 略 有 
不 同 , 矩阵 里 还 留 下 了 许多 非常 小 的 元 素 ,， 这 是 计算 机 处 理 误差 产生 的 结 采 。 输 入 下 述 命令 , 得 

















到 误差 值 : 


>>> myEye = 


>>> myEye - eye(4) 


matrix([[ 0 


.00000000e+00, 


randMat*invRandMat 


-6.59194921e-17, 


-4.85722573e-17, 


-4.99600361e-16] ， 

[ 2.22044605e-16, 0.00000000e+00, -6.03683770e-16, 
-7.77156117e-16], 

[ -5.55111512e-17, -1.04083409e-17, -3.33066907e-16, 
-2.22044605e-16],， 

[ 5.55111512e-17, 1.56125113e-17, -5.55111512e-17, 


国 数 eye (4) 创建 4x4 的 单位 矩阵 。 

只 要 能 够 顺利 地 完成 上 述 例子 , 就 说 明 已 经 正确 地 安装 了 NumPy 困 数 库 ， 以 后 我 们 就 可 以 利 
用 它 构造 机 融 学 习 应 用 程序 。 即 使 没有 提前 学 习 所 有 的 图 数 也 没有 关系 , 本 书 将 在 需要 的 时 候 介 
绍 更 多 的 NumPy 函 数 库 的 功能 。 


1.8 本草 小 结 


尽管 没有 3 引起 大 多 数 人 的 注意 , 但 是 机 带 学 习 算 法 已 经 广泛 应 用 于 我 们 的 日 前 生活 之 中 。 
天 我 们 需要 处 理 的 数据 在 不 断 地 增加 , 能 够 深入 理解 数据 背后 的 真实 含义 , 是 数据 驱动 产业 必须 
具备 的 基本 技能 。 
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学 习 机 带 学 习 算 法 ,必须 了 解数 据 实例 ， 每 个 数据 实例 由 多 个 特征 值 组 成 。 分 类 是 基本 的 机 
胡 学 习 任 务 ， 它 分 析 未 分 类 数据 ， 以 确定 如 何 将 其 放 入 已 知 群 组 中 。 为 了 构建 和 训练 分 类 各 ， 必 
须 首 先 输入 大 量 已 知 分 类 的 数据 ， 我 们 将 这 些 数据 称 为 训练 样本 集 。 

尽管 我 们 构造 的 乌 类 识别 专家 系统 无 法 像 人 类 专家 一 样 精确 地 识别 不 同 的 马 类 , 然而 构建 接 
近 专 家 水 平 的 机 此 系 统 可 以 显 闭 地 改进 我 们 的 生活 质量 。 如 果 我 们 可 以 构造 的 医生 专家 系统 能 够 
达到 人 类 医生 的 准确 座 ， 则 病人 可 以 得 到 快速 的 治疗 ; 如 来 我 们 可 以 改进 天 气 预 报 , 则 可 以 减少 
水 资源 的 短缺 , 提 融 食 物 供给 。 我 们 可 以 列举 许 许 多 多 这 样 的 例子 , 机 带 学 习 的 应 用 前 景 几乎 是 
无 限 的 。 

第 一 部 分 的 后 续 6 半 主要 人 研究 分 类 问题 ， 它 是 监督 学 习 算法 的 一 个 分 文 ， 下 一 革 我 们 将 介绍 
第 一 个 分 类 算法 一 一 k- 近 邻 算法 。 




















本 章 内 容 

口 大 近邻 分 类 算法 

口 从 文本 文件 中 解析 和 导入 数据 
口 使 用 Matplotlib 创 建 扩 散 图 

口 归 一 化 数值 











众所周知 ， 电 影 可 以 按照 题材 分 类 ， 然 而 题材 本 号 是 如 何 定义 的 ?由 谁 来 判定 某 部 电影 属于 哪 
个 古 材 ?也 就 是 说 同一 题材 的 电影 具有 哪些 公共 特征 ?这 些 者 是 在 进行 电影 分 类 时 必须 要 考虑 的 问 
题 。 没有 哪个 电影 人 会 说 日 己 制作 的 电影 和 以 前 的 某 部 电影 类 似 , 但 我 们 确实 知道 每 部 电影 在 风格 
上 的 确 有 可 能 会 和 同 题 材 的 电影 相近 。 那 么 动作 片 具有 哪些 共有 特征 ， 使 得 动作 片 之 间 非 常 关 似 ， 
而 与 爱情 片 存在 看 明显 的 差别 呢 ? 动 作 刻 中 也 会 存在 接吻 镜头 , 爱情 上 中 也 会 存在 打斗 场景 ,我们 
不 能 单纯 依 徘 是 否 存在 打斗 或 者 杂 吻 来 判断 影 族 的 类 型 。 但 是 爱情 请 中 的 杂 吻 镜头 更 多 , 动作 卢 中 
的 打斗 场景 也 更 频 蛇 , 基于 此 类 场景 在 东部 电影 中 出 现 的 次 数 可 以 用 来 进行 电影 分 类 。 本 章 第 一 市 
基于 电影 中 出 现 的 杀 吻 、 打 斗 出 现 的 次 数 ， 使 用 矿 近 邻 算法 构造 程序 ， 目 动 划分 电影 的 题材 类 型 。 
我 们 首先 使 用 电影 分 类 讲解 近邻 算法 的 基本 概念 ， 然 后 学 习 如 何在 其 他 系统 上 使 用 近邻 算法 。 

本 章 介 绍 第 一 个 机 融 学 习 算法 : 近邻 算法 ， 它 非 第 有 效 而 且 易 于 掌握 。 首 和 完 ， 我们 将 探讨 
近邻 算法 的 基本 理论 ,以 及 如 何 使 用 距离 测量 的 方法 分 类 物品 ; 其 次 我 们 将 使 用 Python 从 文本 文件 
中 导入 并 解析 数据 ; 再 次 , 本 书 讨论 了 当 存 在 许多 数据 来 源 时 ,如何 避免 计算 距离 时 可 能 磁 到 的 一 
些 常见 错误 ; 最 后 ， 利 用 实际 的 例子 讲解 如 何 使 用 近邻 算法 改进 约会 网 站 和 手写 数 子 识别 系统 。 


2.1 Kk- 近邻 算法 概述 
简单 地 说 ， 大 近邻 算法 采用 测量 不 同 特征 值 之 间 的 距离 方法 进行 分 类 。 



























































k- 近 邻 算法 
优点 : 精度 高 、 对 异常 值 不 敏感 、 无 数据 输入 假定 。 
缺点 : 计算 复杂 度 高 、 空 间 复杂 度 高 。 


适用 数据 范围 : 数值 型 和 标 称 型 。 
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本 书 讲解 的 第 一 个 机 带 学 习 算 法 是 大 近邻 算法 (kNN )， 它 的 工作 原理 是 : 存在 一 个 样本 数 
据 集 合 ， 也 称 作 训 练 样本 集 ， 并且 样 本 集中 每 个 数据 都 存在 标签 ， 即 我 们 知道 样本 集中 每 一 数据 
与 所 属 分 类 的 对 应 关系 。 输 入 没有 标签 的 新 数据 后 , 将 新 数据 的 每 个 特征 与 样本 集中 数据 对 应 的 
特征 进行 比较 ,然后 算法 提取 样本 集中 特征 最 相似 数据 ( 最 近邻 ) 的 分 类 标签 。 一 般 来 说 ， 我 们 
只 选择 样本 数据 集中 前 ¢ 个 最 相似 的 数据 ,这 就 是 近邻 算法 中 的 出 处 ,通常 是 不 大 于 20 的 整数 。 
最 后 ， 选 择 k 个 最 相似 数据 中 出 现 次 数 最 多 的 分 类 ， 作 为 新 数据 的 分 类 。 

现在 我 们 回 到 前 面 电影 分 类 的 例子 ,使 用 大 近邻 算法 分 类 爱情 片 和 动作 片 。 有 人 曾经 统计 过 
很 多 电影 的 打斗 镜头 和 接吻 镜头 ,图 2-1 显 示 了 6 部 电影 的 打斗 和 接吻 镜头 数 。 假如 有 一 部 未 看 过 
的 电影 ， 如 何 确定 它 是 爱情 片 还 是 动作 片 呢 ?我 们 可 以 使 用 kNN 来 解决 这 个 问题 。 









































California Man 
是 作 Hes Not Really into Dudes 


? 
的 Beautiful Woman 


镑 Kevin Longblade 


次 Robo Slayer 3000 


Amped | 





影 中 出 现 的 打斗 镜头 次 数 
图 2-1 使 用 打斗 和 接吻 镜头 数 分 类 电影 


首先 我 们 需要 双 道 这 个 未 知 电影 存在 多 少 个 打斗 镜头 和 接吻 镜头 ， 图 2-1 中 问号 位 置 是 该 未 
知 电影 出 现 的 镜头 数 图 形 化 展示 ， 有 具体 数字 参见 表 2-1。 











表 2-1 每 部 电影 的 打斗 镜头 数 、 接 吻 镜 头 数 以 及 电影 评估 类 型 


电影 名 称 打斗 镜头 接吻 镜头 电影 类 型 
California Man 3 104 爱情 厂 
He'’s Not Really into Dudes 2 100 爱情 请 
Beautiful Woman 1 81 爱情 
Kevin Longblade 101 10 动作 片 
Robo Slayer 3000 99 5 动作 片 
Amped 下 98 2 动作 片 
? 18 90 末 知 





即使 不 知道 未 知 电影 属于 哪 种 类 型 ,我们 也 可 以 通过 某 种 方法 计算 出 来 。 冯 先 计算 未 知 电影 
与 样 本 集中 其 他 电影 的 距离 ， 如 表 2-2 所 示 。 此 处 暂时 不 要 关心 如 何 计 算得 到 这 些 距 离 值 ， 使 用 
Python 实现 电影 分 类 应 用 时 ， 会 提供 具体 的 计算 方法 。 
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表 2-2 已 知 电影 与 未 知 电影 的 距离 


电影 名 称 与 未 知 电影 的 距离 
California Man 20.5 
He'’s Not Really into Dudes 18.7 
Beautiful Woman 19.2 
Kevin Longblade 115.3 
Robo Slayer 3000 117.4 
Amped I 118.9 





现在 我 们 得 到 了 样本 集中 所 有 电影 与 未 知 电影 的 距离 ， 按 照 距 离 递 增 排 序 ， 可 以 找到 K 个 距 
离 最 近 的 电影 。 假 定夺 3， 则 三 个 最 靠近 的 电影 依次 是 Besy Not Really into Dudes、Beautiful Woman 
和 California Man。 大 近邻 算法 按照 距离 最 近 的 三 部 电影 的 类 型 ， 决 定 未 知 电影 的 类 型 ， 而 这 三 部 
电影 全 是 爱情 请， 因此 我 们 判定 未 知 电影 是 爱情 上 户 。 

本 章 主要 讲解 如 何在 实际 环境 中 应 用 左近 邻 算 法 ， 同 时 涉及 如 何 使 用 Python 工具 和 相关 的 机 
顺 学 习 术 语 。 按 照 1.5 节 开发 机 器 学 习 应 用 的 通用 步 又 ,我们 使 用 Python 语言 开发 二 近邻 算法 的 简 
单 应 用 ， 以 检验 算法 使 用 的 正确 性 。 











k- 近 邻 算法 的 一 般 流程 
(1) 收集 数据 : 可 以 使 用 任何 方法 。 
(2) 准备 数据 : 距离 计算 所 需要 的 数值 ， 最 好 是 结构 化 的 数据 格式 。 
(3) 分 析 数 据 : 可 以 使 用 任何 方法 。 
(4) 训练 算法 : 此 步骤 不 适用 于 大 近邻 算法 。 
(5) 测试 算法 : 计算 错误 率 。 
(6) 使 用 算法 : 首先 需要 输入 样本 数据 和 结构 化 的 输出 结果 ， 然 后 运行 丘 近 邻 算 法 判定 输 
入 数据 分 别 属 于 哪个 分 类 ， 最 后 应 用 对 计算 出 的 分 类 执行 后 续 的 处 理 。 


2.1.1 准备 : 使 用 Python 导入 数据 


首先, 创建 名 为 KNN.py 的 Python 模 块 ， 本 音 使 用 的 所 有 代码 都 在 这 个 文件 中 。 读 者 可 以 按照 目 
己 的 习惯 学 习 代 码 ， 既 可 以 按照 本 书 学 习 的 进度 , 在 目 己 创建 的 Python 文件 中 编写 代码 ,也 可 以 直 
接 从 本 书 的 源 代码 中 复制 KNN.py 文 件 。 我 推荐 读者 从 头 开始 创建 模块 ， 按照 学 习 的 进度 编写 代码 。 

无 论 大 家 采用 何 种 方法 ,我 们 现在 已 经 有 了 kNN.py 文 件 。 在 构造 完整 的 大 近邻 算法 之 前 , 我 
们 还 知 要 编写 一 些 基 本 的 通用 水 数 ， 在 kKNN.py 文 件 中 增加 下 面 的 代码 : 


from numpy import * 
import operator 











def createDataset (): 
Group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]]1) 
labels = ['A','A','B','B!'| 
return group, labels 


在 上 面 的 代码 中 , 我 们 导入 了 两 个 模块 : 第 一 个 是 科学 计算 包 NumPy; 第 二 个 是 运算 和 从 模块 ， 
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-近邻 算法 执行 排序 操作 时 将 使 用 这 个 模块 提供 的 也 数 ， 后 面 我 们 将 进一步 介绍 。 

为 了 方便 使 用 createDataSset () 图 数 ， 它 创建 数据 集 和 标签 ， 如 图 2-1 所 示 。 然 后 依次 执行 
以 下 步骤 : 保存 KNN.py 文 件 ， 改 变 当 前 路 径 到 存储 KNN.py 文 件 的 位 置 ， 打 开 Python 开发 环境 。 
无 论 是 Linux、Mac OS 还 是 Windows 都 需要 打开 终端 ， 在 命令 提示 符 下 完成 上 述 操作 。 只 要 我 们 
按照 默认 配置 安装 Python, 在 Linux/Mac OS 终 端 内 都 可 以 直接 输入 python， 而 在 Windows 命 令 提 
示 符 下 需要 输入 c:\Python2.6\python.exe， 进 入 Python 交互 式 开 发 环境 。 

进入 Python 开发 环境 之 后 ， 输 入 下 列 命 令 导 入 上 面 编辑 的 程序 模块 : 

>>> import kNN 
上 述 命令 导 和 人 kNN 模 块 。 为 了 确保 输入 相同 的 数据 集 ，kNN 模 块 中 定义 了 阴 数 createDataSet, 在 
Python 命令 提示 符 下 输入 下 列 命令 : 

>>> group,labels = kNN.createDataSet() 
上 述 命令 创建 了 变量 group 和 1labels, 在 Python 命令 提示 符 下 , 输入 变量 的 名 字 以 检验 是 否 正确 
地 定义 变量 : 











>>> group 
array([[ 1. 
[ 1. 
[ 0. 
[ 0. 
>>> labels 
[et WR TB BA 


这 里 有 4 组 数据 ， 每 组 数据 有 两 个 我 们 已 知 的 属性 或 者 特征 值 。 上 而 的 group 和 矩 阵 每 行 包含 一 个 
不 同 的 数据 ,我 们 可 以 把 它 想 象 为 某 个 日 志文 件 中 不 同 的 测量 点 或 者 入 口 。 由 于 人 类 大 脑 的 限制 ， 
我 们 通 第 只 能 可 视 化 处 理 三 维 以 下 的 事务 。 因 此 为 了 简单 地 实现 数据 可 视 化 , 对 于 每 个 数据 点 我 
们 通常 只 使 用 两 个 特征 。 

问 量 labels 包 含 了 每 个 数据 点 的 标签 信息 ，labels 包 含 的 元 素 个 数 等 于 group 和 矩阵 行 数 。 
这 里 我 们 将 数据 点 (1, 1.1) 定 义 为 类 A ， 数 据点 (0, 0.1) 定 义 为 类 B。 为 了 说 明 方 便 ， 例 子 中 的 数值 
是 任意 选择 的 ， 并 没有 给 出 轴 标 签 ， 图 2-2 是 市 有 类 标签 信息 的 四 个 数据 点 。 


1.2 


OO OP PP 








1.0 


0.8 





一 0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2 


图 2-2 ”大 近邻 算法 : 带 有 4 个 数据 点 的 简单 例 于 
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现在 我 们 已 经 知 直 Python 如 何 解析 数据 ， 如 何 加 载 数据 ， 以 及 KNN 算 法 的 工作 原理 ， 接 下 来 
我 们 将 使 用 这 些 方法 完成 分 类 任务 。 


2.1.2 ”实施 kNN 算法 


本 布 使 用 程序 清单 2-1 的 困 数 运行 KNN 算 法 , 为 每 组 数据 分 类 。 这 里 首先 给 出 近邻 算法 的 伪 
代码 和 实际 的 Python 人 代码， 然后 详细 地 解释 每 行 代 码 的 含义 。 该 也 数 的 功能 是 使 用 近邻 算法 将 
每 组 数据 划分 到 某 个 类 中 ， 其 伪 代 人 码 如 下 : 

对 未 知 类 别 属 性 的 数据 集中 的 每 个 点 依次 执行 以 下 操作 : 

(1) 计算 已 知 类 别 数 据 集中 的 点 与 当前 点 之 间 的 距离 ; 

(2) 按照 距离 递增 次 序 排序 ; 

(3) 选取 与 当前 点 距离 最 小 的 上 个 点 ; 

(4) 确定 前 下 个 点 所 在 类 别 的 出 现 频率 ; 

(5) 返回 前 kK 个 点 出 现 频 座 最 高 的 类 别 作 为 当前 点 的 预测 分 类 。 

Python 聘 数 classi fy0 () 如 程序 清单 2-1 所 示 。 


程序 清单 2-1 撕 近 邻 算 法 
def classify0 (inxX, dataSsSet, labels, k): 
dataSetSize = qQataSet .Shape[0] 








diffMat = tile(inX, (dataSsSetSize,1)) - dataset 
sqDiffMat = diffMat**2 距离 计算 
sqDistances = sqDiffMat.sum(axis=1) 
distances = sgqDistances**0.5 
sortedDistIndicies = distances.argsort  () 
ee 选择 距离 最 小 
or i in range (K) : 的 K 个 点 
voteIlabel = labels[sortedDistIndicies[i]] a 
classCount [voteIlabel] = classCount .get (voteIlabel,0) + 1 
SortedClassCount = sorted(classCount .iteritems(), 
key=operator.itemgetter(1), reverse=True) 
return sortedClassCount [0] [0] @ HF 


classifvy0() 函数 有 4 个 输入 参数 :用 于 分 类 的 输入 向 量 是 inX, 输 入 的 训练 样本 集 为 dataSet， 
标签 回 量 为 labels,， 最 后 的 参数 k 表 示 用 于 选择 最 近邻 居 的 数 日 ,其 中 标签 向 量 的 元 素数 日 和 算 
阵 aataset 的 行 数 相 同 。 程序 清单 2-1 使 用 欧 氏 距离 公式 ， 计算 两 个 回 量 点 zx4 和 xzB 之 间 的 距离 @: 


d = V(x4, —xB) +(x4 -xB) 
例如 ， 点 (0, 0) 与 (1, 2) 之 间 的 距离 计算 为 : 


(1-0) +(2-0) 


如 果 数 据 集 存 在 4 个 特征 值 ， 则 点 (1, 0, 0, 1) 与 (7, 6, 9, 4) 之 间 的 距离 计算 为 : 








(7—-D)’+(6-—0) +(9-0) +(4-1) 

计算 完 所 有 点 之 间 的 距离 后 ， 可 以 对 数据 按照 从 小 到 大 的 次 序 排序 。 然 后 ， 确 定 前 k 个 距离 
最 小 元 素 所 在 的 主要 分 类 @@, 输入 Kk 总 是 正 整 数 ;， 最 后 ,将 classCount 字 典 分 解 为 元 组 列表 ， 然 后 
使 用 程序 第 二 行 导入 运算 符 模块 的 itemgetter 方 法 ,按照 第 二 个 元 素 的 次 序 对 元 组 进行 排序 合 ，。 
此 处 的 排序 为 逆序 ， 即 按照 从 最 大 到 最 小 次 序 排 序 ， 了 最 后 返回 发 生 频 率 最 高 的 元 际 标 签 。 

为 了 预测 数据 所 在 分 类 ， 在 Python 提示 符 中 输入 下 列 命令 : 

>>> kNN.classify0([0,0], group, labels, 3) 

输出 结果 应 该 是 B， 大 家 也 可 以 改变 输入 [0, 0] 为 其 他 值 ， 测 试 程序 的 运行 结 

到 现在 为 止 , 我 们 已 经 构造 了 第 一 个 分 类 融 , 使 用 这 个 分 类 需 可 以 完成 很 多 分 类 任务 。 从 这 
个 实例 出 发 ， 构 造 使 用 分 类 算法 将 会 更 加 容易 。 


























2.1.3 如何 测试 分 类 器 


上 文 我 们 已 经 使 用 近邻 算法 构造 了 第 一 个 分 类 人 副 ， 也 可 以 检验 分 类 一 给 出 的 答案 是 否 符合 
我 们 的 预期 。 访 者 可 能 会 问 :“ 分 类 俘 何 种 情况 下 会 出 错 ? ”或 者 “ 管 案 是 否 总 是 正确 的 ? ” 答 
案 是 否定 的 , 分 类 名 并 不 会 得 到 百 分 百 正 确 的 结果 ,我 们 可 以 使 用 多 种 方法 检测 分 类 骨 的 正确 率 。 
此 外 分 类 右 的 性 能 也 会 受到 多 种 因 系 的 有 影响, 如 分 类 融 设 置 和 数据 集 等 。 不 同 的 算法 在 不 同 数据 
集 上 的 表现 可 能 完全 不 同 ， 这 也 是 本 部 分 的 6 章 都 在 讨论 分 类 算法 的 原因 所 在 。 

为 了 测试 分 类 侣 的 效果 ,我 们 可 以 使 用 已 知 答案 的 数据 ， 当 然 管 案 不 能 告诉 分 类 可 ,检验 分 
类 各 给 出 的 结 采 是 否 符合 预期 结 采 。 通 过 大 量 的 测试 数据 , 我 们 可 以 得 到 分 类 带 的 错误 率 一 一 分 
类 种 给 出 错误 结 来 的 次 数 除 以 测试 执行 的 总 数 。 错 误 率 是 币 用 的 评 佑 方法 ,主要 用 于 评 佑 分 类 俘 
在 茶 个 数据 集 上 的 执行 效 来 。 完 美 分 类 骨 的 错误 率 为 0， 最 差分 类 从 的 错误 率 是 1.0， 在 这 种 情况 
下 ， 分 类 名 根本 就 无 法 找到 一 个 正确 答案 。 读 者 可 以 在 后 面 草 世 看 到 实际 的 数据 例子 。 

上 一 市 介绍 的 例子 已 经 可 以 正常 运转 了 , 但 是 并 没有 太 大 的 实际 用 处 , 本 章 的 后 两 节 将 在 现 
实 世 界 中 使 用 近邻 算法 。 首 先 ， 我们 将 使 用 近邻 算法 改进 约会 网 站 的 效果 ， 然 后 使 用 大 近邻 
算法 改进 手写 识别 系统 。 本 书 将 使 用 手写 识别 系统 的 测试 程序 检测 大 近邻 算法 的 效果 。 


2.2 示例: 使 用 人 近邻 算法 改进 约会 网 站 的 配对 效果 


我 的 朋友 海伦 一 直 使 用 在 线 约 会 网 站 寻找 适合 自己 的 约会 对 象 。 尽管 约会 网 站 会 推荐 不 同 的 
人 选 ， 但 她 并 不 是 喜欢 每 一 个 人 。 经 过 一 番 总 结 ， 她 发 现 曾 交往 过 三 种 类 型 的 人 : 

口 不 喜欢 的 人 

口 魅力 一 般 的 人 

口 极 具 魅力 的 人 

尽管 发 现 了 上 述 规律 , 但 海伦 依然 无 法 将 约会 网 站 推荐 的 匹配 对 象 归 人 恰当 的 分 类 。 她 觉得 
可 以 在 周一 到 周 五 约会 那些 魅力 一 般 的 人 ,而 周末 则 更 喜欢 与 那些 极 具 魅 力 的 人 为 伴 。 海 伦 硕 望 













































































2.2 示例 ， 使 用 大 近 领 算法 改进 约会 网 站 的 配对 效果 21 





我 们 的 分 类 软件 可 以 更 好 地 帮助 她 将 匹配 对 和 象 划分 到 确切 的 分 类 中 。 此 外 海伦 还 收集 了 一 些 约会 
网 站 未 曾 记 录 的 数据 信息 ， 她 认为 这 些 数据 更 有 助 于 匹配 对 和 象 的 归 类 。 





示例 : 在 约会 网 站 上 使 用 人 近邻 算法 

(1) 收集 数据 : 提供 文本 文件 。 

(2) 准备 数据 : 使 用 Python 解析 文本 文件 。 

(3) 分 析 数 据 : 使 用 Matplotlib 画 二 维 扩散 图 。 

(4) 训练 算法 : 此 步骤 不 适用 于 太 近 邻 算 法 。 

(5) 测试 算法 : 使 用 海伦 提供 的 部 分 数据 作为 测试 样本 。 
测试 样本 和 非 测试 样本 的 区 别 在 于 : 测试 样本 是 已 经 完成 分 类 的 数据 ， 如 果 预 测 分 类 
与 实际 类 别 不 同 ， 则 标记 为 一 个 错误 。 

(6) 使 用 算法 : 产生 简单 的 命令 行程 序 ， 然 后 海伦 可 以 输入 一 些 特征 数据 以 判断 对 方 是 否 
为 自己 喜欢 的 类 型 。 


2.2.1 准备 数据 : 从 文本 文件 中 解析 数据 


海伦 收集 约会 数据 已 经 有 了 一 段 时 间 ， 她 把 这 些 数据 存放 在 文本 文件 datingTestSet.txt 中 ， 
个 样本 数据 占据 一 行 ， 总 共有 1000 行 。 海 伦 的 样本 主要 包含 以 下 3 种 特征 : 

口 每 年 获得 的 飞行 弟 客 里 程 数 

口 玩 视频 游戏 所 耗 时 间 百 分 比 

口 每 周 消费 的 冰淇淋 公升 数 

在 将 上 述 特 征 数 据 输 入 到 分 类 右 之 前 , 必须 将 符 处 理 数 据 的 格式 改变 为 分 类 带 可 以 接受 的 格 
3 在 kKNN.py 中 创建 名 为 Efile2matrix 的 洱 数 ， 以 此 来 处 理 输 入 格式 问题 。 该 函数 的 输入 为 文 
件 名 字符 串 ， 输 出 为 训练 样本 矩阵 和 类 标签 辣 量 。 

将 下 面 的 代码 增加 到 kNN.py 中 。 


程序 清单 2-2 将 文本 记录 转换 为 NumPy 的 解析 程序 
def file2matrix(filename): 


fr = open (filename) a 得 到 文件 行 数 











arrayOLines = fr.readlines () 

numberOfLines = len(arrayOLines,) 

returnMat = Zeros ( (numberOfLines,3)) 6 

classLabelVector = [] 创建 返回 的 NumPy 和 矩阵 

index = 0 

for line in arrayOLines: 
we Ss 
listFromLine = line.split('\t') 
returnMat [index,:|] = listFromLinel[0:3] 


classLabelVector.append (int (listFromLine[-1])) 
index += 1 
return returnMat,classLabelVector 
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从 上 面 的 代码 可 以 看 到 ，Python 处 理 文本 文件 非 和 容易。 首先 我 们 需要 知道 文本 文件 包含 多 
少 行 。 打 开 文件 ,得 到 文件 的 行 数 @。 人 然后 创建 以 零 填 充 的 矩阵 NumPy@ (实际 上 ，NumPy 是 一 
个 二 维 数组 ， 这 里 上 暂时 不 用 考虑 其 用 途 )。 为 了 价 化 处 理 ， 我 们 将 该 矩阵 的 为 一 维度 设置 为 固 害 
值 3， 你 可 以 按照 自己 的 实际 需求 增加 相应 的 代码 以 适应 变化 的 输入 值 。 循 环 处 理 文件 中 的 每 行 
数据 合 ， 首 先 使 用 函数 1ine .strip() 截取 掉 所 有 的 回 车 字符 ， 然 后 使 用 tab 字 符 \t 将 上 一 步 得 
到 的 整 行 数据 分 割 成 一 个 元 系列 表 。 接 着 ,我 们 选取 前 3 个 元 条 ,将 它们 存储 到 特征 矩阵 中 。Python 
语言 可 以 使 用 索引 值 -1 表 示 列 表 中 的 最 后 一 列 元 每 , 利用 这 种 负 索 引 , 我 们 可 以 很 方便 地 将 列表 
的 最 后 一 列 存 储 到 问 量 classLabelVector 中 。 需要 注意 的 是 , 我 们 必须 明确 地 通知 解释 各 ， 告 
诉 它 列表 中 存储 的 元 系 值 为 整 型 ， 否则 Python 语 言 会 将 这 些 元 又 当 作 字 符 串 处 理 。 以 前 我 们 必须 
目 己 处 理 这 些 变 量 值 类 型 问题 ， 现 在 这 些 细节 问题 完全 可 以 交 给 NumPy 函 数 库 来 处 理 。 

在 Python 命令 提示 符 下 输入 下 面 命令 : 

>>> reload (kNN) 

>>> datingDataMat,datingLabels = kNN.file2matrix('datingTestSet .txt') 


使 用 函数 file2matrix 读 取 文 件数 据 , 必须 确保 文件 datingTestSet.txt 和 存储 在 我 们 的 工作 目录 
中 。 此 外 在 执行 这 个 洱 数 之 前 ， 我 们 重新 加 和 副 了 kNN.py 模 块 ， 以 确保 更 新 的 内 容 可 以 生效 ， 否 
则 Python 将 继续 使 用 上 次 加 载 的 KNN 模 块 。 

成 功 导 入 datingTestSet.txt 文 件 中 的 数据 之 后 ， 可 以 简单 检查 一 下 数据 内 容 。Python 的 输出 结 
条 大 致 如 下 : 


>>> datingDataMat 

































































array([[ 7.29170000e+04， 7.10627300e+00， 2.23600000e-01],， 
[ 1.42830000e+04, 2.44186700e+00, 1.90838000e-01],， 
[ 7.34750000e+04， 8.31018900e+00， 8.52795000e-01]， 
[ 1.24290000e+04, 4.43233100e+00,， 9.24649000e-01],， 
[ 2.52880000e+04， 1.31899030e+01, 1.05013800e+00] ， 
[ 4.91800000e+03， 3.01112400e+00, 1.90663000e-01]]) 


>>> datingLabels[0:20] 
[ 3, 2, 1, 1, 1, 11,3, 3, 1, 3, 1, 1, 2, 1, 1, 1, 1, 1, 2, 3] 


现在 已 经 从 文本 文件 中 导入 了 数据 , 并 将 其 格式 化 为 想 要 的 格式 , 接 春 我 们 需要 了 解数 据 的 
真实 含义 。 当 然 我 们 可 以 下 接济 览 文 本 文件 , 但 是 这 种 方法 非 第 不 友好 ,一 般 来 说 , 我 们 会 采用 
图 形 化 的 方式 直观 地 展示 数据 。 下 面 就 用 Python 工 具 来 图 形 化 展示 数据 内 容 ， 以 便 辨 识 出 一 些 数 
据 模 式 。 














NumPy 数 组 和 Python 数 组 
本 书 将 大 量 使 用 NumPy 数 组 ， 你 既 可 以 直接 在 Python 命 令 行 环境 中 输入 from numpy 
import artay 将 其 性 入， 也 可 以 通过 直接 导入 所 有 NumPy 库 内 容 来 将 其 导入 。 由 于 NumPy 
库 提 供 的 数组 操作 并 不 支持 Python 自 带 的 数组 类 型 ,因此 在 编写 代码 时 要 注意 不 要 使 用 错误 的 
数组 类 型 。 
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2.2.2 分 析 数 据 : 使 用 Matplotlib 创建 散 点 图 
首先 我 们 使 用 Matplotlib 制 作 原 始 数据 的 散 点 图 ， 在 Python 命令 行 环境 中 ， 输 入 下 列 命令 : 


>>> import matplotlib 

>>> import matplotlib.pyplot as plt 

>>> fig = plt.figure() 

>>> ax = fig.add subplot (111) 

>>> ax.scatter (datingDataMat[:,1], datingDataMat[:,2]) 
>>> plt.show() 


输出 效果 如 图 2-3 所 示 。 散 点 图 使 用 datingDataMat 算 阵 的 第 二 、 第 三 列 数 据 ， 分 别 表示 特征 
值 “ 玩 视 频 游戏 所 耗 时 间 百 分 比 ” 和 “每 周 所 消费 的 冰淇淋 公升 数 ”。 
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玩 视频 游戏 所 耗 时 间 百 分 比 
图 2-3 ”没有 样本 类 别 标 签 的 约会 数据 散 点 网 。 难 以 辨识 图 中 的 点 究竟 属于 哪个 样本 分 类 
由 于 没有 使 用 样本 分 类 的 特征 值 ， 我 们 很 难 从 图 2-3 中 看 到 任何 有 用 的 数据 模式 信息 。 一 般 





来 说 , 我 们 会 采用 色彩 或 其 他 的 记号 来 标记 不 同样 本 分 类 , 以 便 更 好 地 理解 数据 信息 。Matplotlib 
库 提 供 的 scattez 果 数 文 持 个 性 化 标记 散 点 图 上 的 点 。 重 新 输入 上 面 的 代码 , 调用 scatter 困 数 
时 使 用 下 列 参数 : 


>>> ax.scatter (datingDataMat[:,1], datingDataMat[:,2], 
15.0*array (datingLabels), 15.0*array (datingLabels)) 


上 述 代 码 利用 变量 datingLabels 存 储 的 类 标签 属性 , 在 散 点 图 上 绘制 了 色彩 不 每、 尺寸 不 同 的 
点 。 你 可 以 看 到 一 个 与 图 2-3 类 似 的 散 点 图 。 从 图 2-3 中 ， 我 们 很 难看 到 任何 有 用 的 信息 ， 然 而 由 

















24 第 2 章 大 近 领 算法 








于 图 2-4 利 用 颜色 及 尺寸 标识 了 数据 点 的 属性 类 别 ， 因 而 我 们 基本 上 可 以 从 图 2-4 中 看 到 数据 点 所 
属 三 个 样本 分 类 的 区 域 轮廓 。 


0 





5 15 20 25 
玩 视频 游戏 所 耗 时 间 百分比 


图 2-4 ”各 有 样本 分 类 标签 的 约会 数据 散 点 图 。 虽 然 能 够 比较 容易 地 区 分 数据 点 从 属 类 
别 ， 但 依然 很 难 根据 这 张 图 得 出 结论 性 信息 
本 厄 我 们 学 习 了 如 何 使 用 Matplotlib 库 图 形 化 展示 数据 ， 图 2-4 使 用 了 datingDataMat 和 类 阵 属 性 
列 2 和 3 展示 数据 ， 虽 然 也 可 以 区 别 ， 但 图 2-5 采 用 列 1 和 2 的 属性 值 却 可 以 得 到 更 好 的 效果 ， 图 中 
清晰 地 标识 了 三 个 不 同 的 样本 分 类 区 域 ， 具有 不 同 爱 好 的 人 其 类 别 区 域 也 不 同 。 
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每 年 获取 的 飞行 常客 里 程 数 
图 2-5 ”每 年 太 得 的 飞行 第 客 里 程 数 与 玩 视 频 游戏 所 占 百分比 的 约会 数据 散 点 图 。 约 会 
数据 有 三 个 特征 ， 通 过 图 中 展示 的 两 个 特征 更 容易 区 分 数据 点 从 属 的 类 别 
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2.2.3 准备 数据 : 归 一 化 数值 

表 2-3 给 出 了 提取 的 四 组 数据 ， 如 有 果 想 要 计算 样本 3 和 样本 4 之 间 的 距离 ， 可 以 使 用 下 面 的 
方法 : 

(0—67) +(20 000—32 000) +(1.1-0.1)? 

我 们 很 容易 发 现 ， 上 面 方程 中 数字 差 值 最 大 的 属性 对 计算 结果 的 有 影响 最 大 ,也 就 是 说 ,每 年 
获取 的 飞行 各 客 里 程 数 对 于 计算 结果 的 影响 将 远 远 大 于 表 2-3 中 其 他 两 个 特征 一 一 玩 视 频 游 戏 的 
和 每 周 消费 冰淇淋 公升 数 一 一 的 有 影响。 而 产生 这 种 现象 的 唯一 原因 , 仪 仪 是 因为 飞行 常客 里 程 数 
远大 于 其 他 特征 值 。 但 海伦 认为 这 三 种 特征 是 同等 重要 的 ， 因此 作为 三 个 等 权重 的 特征 之 一 ， 飞 
行 党 客 里 程 数 并 不 应 该 如 此 严重 地 影响 到 计算 结果 。 

表 2-3 ”约会 网 站 原始 数据 改进 之 后 的 样本 数据 
玩 视频 游戏 所 耗 时 间 百 分 比 ”每 年 获得 的 飞行 常客 里 程 数 ”每 周 消费 的 冰淇淋 公升 数 样本 分 类 


























] 0.8 400 0.5 1 
了 12 134 000 0.9 3 
3 0 20 000 1.1 2 
4 07 32 000 0.1 2 


在 处 理 这 种 不 同 取 仁 范围 的 特征 值 时 , 我 们 通常 采用 的 方法 是 将 数值 归 一 化 ,， 如 将 取信 范围 
处 理 为 0 到 1 或 者 -1 到 1 之 间 。 下 面 的 公式 可 以 将 任意 取信 范围 的 特征 值 转化 为 0 到 1 区 间 内 的 值 : 

newValue = (oldVvalue-min)/ (max-min) 

其 中 wmin 和 和 max 分 别 是 数据 集中 的 最 小 特征 值 和 最 大 特征 值 。 虽 然 改变 数值 取 值 范围 增加 了 
分 类 需 的 复杂 度 ， 但 为 了 得 到 准确 结 末 ， 我 们 必须 这 样 做 。 我 们 需要 在 文件 KNN.py 中 增加 一 个 
新 函数 autoNorm() ， 该 函数 可 以 目 动 将 数字 特征 信 转 化 为 0 到 1 的 区 间 。 

程序 清单 2-3 提 供 了 因数 autoNorm () 的 代码 。 


程序 清单 2-3” 归 一 化 特征 值 
def autoNorm(dataSet): 

minVals = dataSet .min(0) 
maxVals = dataSet .max(0) 
ranges = maxVals - minVals 
normDataSet = zeros (shape (dataSsSet)) 
m = dataset.shapelo] 
normDataSsSet = dataSet - tile(minVals, (m,1)) -9 特征 值 相 除 
normDataSet = normDataSet/tile (ranges, (m,1)) 
return normDataSet, ranges, minVals 


在 函数 autoNorm() 中 ， 我 们 将 每 列 的 最 小 值 放 在 变量 minvals 中 ， 将 最 大 值 放 在 变量 
maxVals 中 ， 其 中 dataSset .min(0) 中 的 参数 0 使 得 函数 可 以 从 列 中 选取 最 小 值 ， 而 不 是 选取 当 
前 行 的 最 小 值 。 人 然后， 函数 计算 可 能 的 取 值 范围 ， 并 创建 新 的 返回 矩阵 。 正 如 前 面 给 出 的 公式 ， 
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为 了 归 一 化 特征 值 , 我 们 必须 使 用 当前 值 减 去 最 小 值 ， 然 后 除 以 取 值 范围 。 需 要 注意 的 是 ， 特 征 
值 矩 阵 有 1000 x 3 个 值 , 而 minvals 和 range 的 值 都 为 1 x 3。 为 了 解决 这 个 问题 , 我 们 使 用 NumPy 
库 中 tile() 函数 将 变量 内 容 复制 成 输入 矩阵 同样 大 小 的 矩阵 ， 注 意 这 是 具体 特征 值 相 除 @， 而 
对 于 某 些 数值 处 理 软件 包 ，/ 可 能 意味 痢 和 矩阵 除法 ,但 在 NumPy 库 中 ， 和 矩阵 除法 需要 使 用 孙 数 
linalg.solve (matA,matB).。 


在 Python 命令 提示 符 下 , 重新 加 载 KNN.py 模 块 ， 执行 autoNorm 函 数 , 检测 函数 的 执行 结 


>>> reload (kNN) 
>>> normMat, ranges, minVals = kNN.autoNorm (datingDataMat) 
>>> normMat 
array([[ 0.33060119, 0.58918886, 0.69043973],， 
[ 0.49199139,，, 0.50262471， 0.13468257]， 




















[ 0.34858782， 0.68886842,， 0.59540619] ， 
[ 0.93077422 ， 0.952696233， 0.58885466],， 
[ 0.76626481, 0.44109859 ， 0.88192528]， 
[ 0.0975718 ， 0.02096883， 0.02443895] ] ) 
>>> ranges 
array([ 8.78430000e+04, 2.02823930e+01, 1.69197100e+00]) 
>>> minVals 
array([ 0. ， 0. ， 0.001818]) 


这 里 我 们 也 可 以 只 返回 normMat 和 矩阵 ， 但 是 下 一 节 我 们 将 需要 取 值 范围 和 最 小 值 归 一 化 测试 
数据 。 


2.2.4 测试 算法 : 作为 完整 程序 验证 分 类 器 


上 节 我 们 已 经 将 数据 按照 需求 做 了 处 理 , 本 市 我 们 将 测试 分 类 带 的 效果 ， 如 采 分 类 带 的 正确 
率 满足 要 求 , 海伦 就 可 以 使 用 这 个 软件 来 处 理 约 会 网 站 提供 的 约会 名 单 了 。 机 天 学 习 算法 一 个 很 
重要 的 工作 就 是 评 佑 算法 的 正确 率 ， 通 帝 我 们 只 提供 已 有 数据 的 90% 作 为 训练 样本 来 训练 分 类 
船 ， 而 使 用 其 余 的 10% 数 据 去 测试 分 类 大 ,检测 分 类 融 的 正确 率 。 本 书后 续 章 节 还 会 介绍 一 些 高 
级 方法 完成 同样 的 任务 ,这 里 我 们 还 是 采用 最 原始 的 做 法 。 需 要 注意 的 是 ，10% 的 测试 数据 应 该 
是 随机 选择 的 ， 由 于 海伦 提供 的 数据 并 没有 按照 特定 目的 来 排序 ， 所 以 我 们 可 以 随意 选择 10% 数 
据 而 不 影响 其 随机 性 。 

















、 米 








前 面 我 们 已 经 提 到 可 以 使 用 错误 率 来 检测 分 类 带 的 性 能 。 对 于 分 类 带 来 说 , 错误 率 驶 是 分 类 
大 给 出 错误 结 来 的 次 数 除 以 测试 数据 的 总 数 ， 完美 分 类 带 的 错误 率 为 0， 而 错误 率 为 1.0 的 分 类 带 


不 会 给 出 任何 正确 的 分 类 结 东 。 人 代码 里 我 们 定义 一 个 计数 天 变量 ， 每 次 分 类 天 错误 地 分 类 数据 ， 
计数 硕 就 加 1， 程 序 执行 完成 之 后 计数 带 的 绪 采 除 以 数据 点 总 数 即 是 错误 座 。 

为 了 测试 分 类 需 效 果 , 在 kNN.py 文 件 中 创建 函数 dat ingClassTest, 该 当 数 是 日 包含 的 ， 
你 可 以 在 任何 时 候 在 Python 运行 环境 中 使 用 该 函数 测试 分 类 融 效 末 。 在 KNN.py 文 件 中 输入 下 面 的 
程序 代码 。 











2.2 示例: 使 用 大 近邻 算法 改进 约会 网 站 的 配对 效果 | 


程序 清单 2-4 “分 类 器 针对 约会 网 站 的 测试 代码 
def datingClassTest () : 
hoRatio = 0.10 
datingDataMat,datingLabels = file2matrix('datingTestSet .txt') 
normMat, ranges, minVals = autoNorm(datingDataMat) 
m = normMat .Shape [oj 
numTestVecs = int (m*hoRatio) 
errorCount = 0.0 
for i in range (numTestVecs): 
classifierResult = classify0 (normMat [i,:],normMat [numTestVecs:m,:],\ 
datingLabels [numTestVecs:m] ,3) 
print "the classifier came back with: %d, the real answer is: gd"\ 
% (classifierResult, datingLabels[il]) 
if (classifierResult != datingLabels[i]): errorCount += 1.0 
print "the total error rate is: $f" $$ (errorCount/float (numTestVecs ) ) 


疯 数 qatingCclassTest 如 程序 清单 2-4 所 示 , 它 首 先 使 用 了 file2matrix 和 autoNorm() 加 
数 从 文件 中 恋 取 数据 并 将 其 转换 为 归 一 化 特征 值 。 接 着 计算 测试 回 量 的 数量 ， 此 步 决 定 了 
normMat 问 量 中 哪些 数据 用 于 测试 , 哪些 数据 用 于 分 类 带 的 训练 样本 ; 然后 将 这 两 部 分 数据 输入 
到 原始 KNN 分 类 需 困 数 classify0。 最 后 ,图 数 计算 错误 率 并 输出 结果 。 注 意 此 处 我 们 使 用 原始 
分 类 器 , 本 草花 费 了 大 量 的 篇 幅 在 讲解 如 何 处 理 数 据 , 如 何 将 数据 改造 为 分 类 需 可 以 使 用 的 特征 
值 。 得 到 可 徘 的 数据 同样 重要 ， 本 书后 续 的 章 世 将 介绍 这 个 主题 。 

在 Python 命令 提示 符 下 重新 加 载 KNN 模 块 ， 并 输入 kNN.datingclassTest () ， 执 行 分 类 天 
测试 程序 ， 我 们 将 得 到 下 面 的 输出 结 采 : 

>>> kNN.datingClassTest () 


the classifier came back with: 1, the real answer is: 1 
the classifier came back with: 2, the real answer is: 2 




















the classifier came back with: 1, the real answer i8s: 
the classifier came back with: 2, the real answer is: 
the classifier came back with: 3, the real answer i8s: 
the classifier came back with: 3, the real answer 1S: 
the classifier came back with: 2, the real answer is: 
the total error rate 18: 0.024000 


分 类 需 处 理 约 会 数据 集 的 错误 率 是 2.4% ， 这 是 一 个 相当 不 错 的 结果 。 我 们 可 以 改变 吨 数 
datingClassTest 内 变量 hoRatio 和 变量 k 的 值 , 检测 错误 率 是 否 随 着 变量 值 的 变化 而 增加 。 依 
赖 于 分 类 算法 、 数 据 集 和 程序 设置 ， 分 类 妖 的 输出 结果 可 能 有 很 大 的 不 同 。 

这 个 例子 表明 我 们 可 以 正确 地 预测 分 类 , 错误 率 仅仅 是 2.4%。 海伦 完全 可 以 输入 未 知 对 象 的 
属性 信息 ， 由 分 类 软件 来 帮助 她 判定 某 一 对 和 象 的 可 交往 程度 : 讨 拓 、 一 般 言 欢 、 非 党 喜欢 。 


2.2.5 ”使 用 算法 : 构建 完整 可 用 系统 


上 上 面 我 们 已 经 在 数据 上 对 分 类 器 进行 了 测试 , 现在 终于 可 以 使 用 这 个 分 类 需 为 海伦 来 对 人 们 
分 类 。 我 们 会 给 海伦 一 小 段 程序 ， 通 过 该 程序 海伦 会 在 约会 网 站 上 找到 茶 个 人 并 输入 他 的 信息 。 
程序 会 给 出 她 对 对 方 喜 欢 程度 的 预测 值 。 


N) POWD Pp 
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将 下 列 代码 加 入 到 kNN.py 并 重新 载 人 kNN。 


程序 清单 2-5 ”约会 网 站 预测 函数 


def classifyPerson(): 


resultList = ['not at all','in small doses', 'in large doses'| 
percentTats = float (raw input(\ 

"percentage of time spent playing video games?")) 
ffMiles = float (raw input ("frequent flier miles earned per year?")) 


iceCream = float(raw input ("liters of Ice cream consumed per year?")) 
datingDataMat,datingLabels = file2matrix('datingTestSet2.txt') 


normMat, ranges, minVals = autoNorm (datingDataMat) 
inArr = array ([ffMiles, percentTats, iceCream|]) 
classifierResult = classify0( (inArr-\ 
minVvals) /ranges,normMat,datingLabels,3) 
print "You will probably like this person: "AN 
resultListl[classifierResult - 1] 





上 述 程序 清单 中 的 大 部 分 代码 我 们 在 前 面 都 见 过 。 唯 一 新 加 入 的 代码 是 图 数 raw_input ()。 


该 函数 允许 用 户 输入 文本 行 命令 并 返回 用 户 所 输入 的 命令 。 为 了 解 程序 的 实际 运行 效果 , 输入 如 
人 


命令 : 


| 


>>> kNN.classifyPerson () 

percentage of time spent playing video games?10 
frequent flier miles earned per year?10000 

liters of ice cream consumed per year?0.5 

You will probably like this person: in small doses 


目前 为 止 ， 我 们 已 经 看 到 如 何在 数据 上 构建 分 类 大 。 这 里 所 有 的 数据 让 人 看 起 来 都 很 容易 ， 
但 是 如 何在 人 不 太 容 易 看 懂 的 数据 上 使 用 分 类 各 呢 ” 从 下 一 方 的 例子 中 , 我 们 会 看 到 如 何在 二 进 
制 存 储 的 图 像 数 据 上 使 用 kNN。 


2.3 示例 : 手写 识别 系统 


本 市 我 们 一 步 步 地 构造 使 用 近邻 分 类 右 的 手写 识别 系统 。 为 了 简单 起 见 ， 这 里 构造 的 系统 
只 能 识别 数字 0 到 9， 参 见 图 2-6。 和 需要 识别 的 数字 已 经 使 用 图 形 人 处理 软件 ,处理 成 具有 相同 的 色 
彩 和 大 小 ": 宽 高 是 32 像 素 x 32 像 素 的 黑白 图 像 。 尽 管 采用 文本 格式 存储 图 像 不 能 有 效 地 利用 内 
存 空间 ， 但 是 为 了 方便 理解 ， 我 们 还 是 将 图 像 转换 为 文本 格式 。 








~ / 








示例 : 使 用 /近邻 算法 的 手写 识别 系统 
(1) 收集 数据 : 提供 文本 文件 。 
(2) 准备 数据 : 编写 函数 classify0()， 将 图 像 格式 转换 为 分 类 器 使 用 的 list 格 式 。 
(3) 分 析 数 据 : 在 Python 命令 提示 符 中 检查 数据 ， 确 保 它 符合 要 求 。 





J 该 数据 集合 修改 自 “ 手 写 数字 数据 集 的 光学 识别 ”一 文中 的 数据 集合 ,该 文登 载 于 2010 年 10 月 3 日 的 UCI 机 器 学 习 
资料 库 中 http://archive.ics.uci.edu/ml。 作 者 是 土耳其 伊斯坦布尔 海峡 大 学 计算 机 工程 系 的 E. Alpaydin 与 C.Kaynak。 
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(4) 训练 算法 : 此 步骤 不 适用 于 矿 近 邻 算 法 。 

(5) 测试 算法 : 编写 函数 使 用 提供 的 部 分 数据 集 作 为 测试 样本 ， 测 试 样本 与 非 测 试 样本 
的 区 别 在 于 测试 样本 是 已 经 完成 分 类 的 数据 ， 如 果 预 测 分 类 与 实际 类 别 不 同 ， 则 标记 
为 一 个 错误 。 

(6) 使 用 算法 : 本 例 没 有 完成 此 步骤 ， 若 你 感 兴趣 可 以 构建 完整 的 应 用 程序 ， 从 图 像 中 提 
取 数 字 ， 并 完成 数字 识别 ， 美 国 的 邮件 分 拣 系统 就 是 一 个 实际 运行 的 类 似 系统 。 





2.3.1 准备 数据 : 将 图 像 转换 为 测试 回 量 


实际 网 像 存 储 在 第 2 音源 代码 的 两 个 子 目 录 内 : 目录 trainingDigits 中 包含 了 大 约 2000 个 例子 ， 
每 个 例子 的 内 容 如 图 2-6 所 示 , 每 个 数字 大 约 有 200 个 样本 ; 目录 testDigits 中 包含 了 大 约 900 个 测试 
数据 。 我 们 使 用 目录 trainingDigits 中 的 数据 训练 分 类 希 ， 使 用 目录 testDigits 中 的 数据 测试 分 类 需 
的 效果 。 两 组 数据 没有 重 毒 ， 你 可 以 检查 一 下 这 些 文件 夹 的 文件 是 否 符合 要 求 。 


ana0anaannananaanal1i1i1i1100000006 00000001111111600000000000000000 800000000011111111111600000000000 
@00000000000000011111111116606066060 G0060000611111111160606000000000000 8606060600000601111111111111606600600606000 
@0000000000000611111111111160606060 G00600011111111111166000000000000 8600000006111111111111111660060006000 
@00000000000611111111111i1i1i1i1660606060 86660661111111111i1i1i16600600000000000 0600000006111111111111110000000000 
a@a00aa00001111111111111116060666 G80606006111111111111116006000000000 0060600000111111111111110000000000 
@000000000611111111606111111666066060 606000111111111111160600000000000 6000000001111660006111160660060006000 
9000000609111111100000111110000009 60600061111111111111166000000000060 00000000000000000611110000000000 































90000000000060111111000000000009 G000000000611111116606000000000000 600000000006111110000000000000000 
9000000000090090111111000000000009 G0000000006111111666061111116660660 6900000000001111100000000000000000 
9000000000090669111111000000000009 G00000001111111111111i11111166066060 00000000001111100000000000000000 
9000000006000061111110000000000006 G00600006011111111111111111i111800060 0000000060111110000000000000000600 
9090000000000060111111000000000009 60009061111iiliiiiiliiliiiliiliilil1o00000 00000000111111000000000000000000 





900000000000000901111000000000009 6060606006111111111111116060060000000060 00000000111100000000000000000000 


图 2-6 手写 数字 数据 集 的 例子 


为 了 使 用 前 面 两 个 例子 的 分 类 带 ， 我 们 必须 将 图 像 格 式 化 处 理 为 一 个 向 量 。 我 们 将 把 一 个 32 x 
32 的 二 进 制图 像 和 矩阵 转换 为 1 x 1024 的 向 量 ， 这 样 前 两 市 使 用 的 分 类 带 束 可 以 处 理 数 子 图 像 信息 了 。 

我 们 首先 编写 一 段 函 数 img2vector， 将 图 像 转换 为 向 量 : 该 函数 创建 1 x 1024 的 NumPy 数 
组 , 然后 打开 给 定 的 文件 , 循环 读 出 文件 的 前 32 行 ， 并 将 每 行 的 尖 32 个 字符 值 存储 在 NumPy 数 组 
中 ， 最 后 返回 数组 。 


def img2vector (filename): 

returnVect = zeros((1,1024)) 
fr = open (filename) 
for i in range (32): 

lineSstr = fr.readline() 

for ] in range (32): 

returnVect[0,32*i+j] = int (linestr[j]) 

return returnVect 
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将 上 述 代 码 输入 到 kNN.py 文 件 中 ， 在 Python 命 令 行 中 输入 下 列 
然后 与 文本 编辑 侣 打开 的 文件 进行 比较 : 


>>> testVector KNN .img2vector('testDigits/0 13.txt') 
>>> testVector[0,0:31] 


array([ 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 
Do Tek Tog Tsp Ty TT 0. TT 
Os ‘Ge Hy Ve 0 

>>> testVector[0,32:63] 

array([ 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 
og Tem Tey Toy Tes Msg, Os Vs Ts 0 
0 . 0 . 0 . 0 . 0.]) 


2.3.2 ”测试 算法 : 使 用 Kk- 近邻 算法 识别 手写 数字 


测试 mg2vectoz 国 数 ， 


: 0., 0., 

:Dis Qsy 

¢ Qa Te 
0 . 0 . 


上 上 节 我 们 已 经 将 数据 处 理 成 分 类 器 可 以 识别 的 格式 , 本 节 我 们 将 这 些 数 据 输入 到 分 类 器 , 检 
测 分 类 器 的 执行 效果 。 程序 清单 2-6 所 示 的 自 包 含 国 数 handwritingclassTest () 是 测试 分 类 器 
的 代码 ， 将 其 写 人 KNN.py 文 件 中 。 在 写 和 人 这些 代 码 之 前 ， 我 们 必须 确保 将 from os import 








会 已 
能 是 


listdir 写 入 文件 的 起 始 部 分 ， 这 段 代 码 的 主要 功 
出 给 定 目录 的 文件 名 。 


程序 清单 2-6 手写 数 子 识别 系统 的 测试 代码 


def handwritingClassTest () : 








hwLabels = [|] 
trainingFileList = listdir('trainingDigits') 
m = len(trainingFileList) 


trainingMat zeros( (m,1024)) 

for i in range (m) : 
fileNameStr trainingFileList [i] 
filestr fileNameStr.split('.') [0] 
classNumSstr int (filestr.split(' ')[0]) 
hwLabels.append (classNumSstr) 


从 os 模块 中 导入 函数 1istqir, 它 可 以 列 


9 获取 目录 内 容 


局 从 文件 名 解析 分 类 数字 


trainingMat [i,:] = img2vector('trainingDigits/%$s' $$ fileNameStr) 
testFileList = listdir('testDigits') 
errorCount = 0.0 
mTest = len(testFileList) 
for i in range (mTest): 
fileNameStr = testrFileList [i] 
filestr = fileNameStr.split('.') [0] 
classNumSstr = int (filestr.split(' ')[0]) 
vectorUnderTest = img2vector('testDigits/%$s' % fileNameStr) 
classifierResult = classify0 (vectorUnderTest, \ 
trainingMat, hwLabels, 3) 
print "the classifier came back with: %d, the real answer is: gd"\ 
当 (classifierResult, classNumSstr) 
if (classifierResult != classNumStr): errorCount += 1.0 
print "\nthe total number of errors is: $d'" $$ errorCount 


9 
Ko] 


print "\nthe total error rate is: $gf" 








(errorCount/float (mTest)) 


在 程序 清单 2-6 中 ,将 trainingDigits 目 录 中 的 文件 内 容 存储 在 列表 中 各， 然后 可 以 得 到 目录 中 有 
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多 少 文件 ， 并 将 其 存储 在 变量 m 中 。 接 着 ,代码 创建 一 个 m 行 1024 列 的 训练 矩阵 ， 该 算 阵 的 每 行 数 
据 存 储 一 个 图 像 。 我 们 可 以 从 文件 名 中 解析 出 分 类 数字 @, 该 目录 下 的 文件 按照 规则 命名 ， 如 文件 
9_45.txt 的 分 类 是 9， 它 是 数字 9 的 第 45 个 实例 。 然 后 我 们 可 以 将 类 代码 存储 在 hwLabels 问 量 中 ,使 
用 前 面 讨论 的 ijmg2vector 消 数 载 和 图像 。 在 下 一 步 中 ， 我 们 对 testDigits 目 录 中 的 文件 执行 相似 的 
操作 ， 不 同 之 处 是 我 们 并 不 将 这 个 目录 下 的 文件 载 和 矩阵 中 ， 而 是 使 用 classi fy0 () 肖 数 测试 该 
目录 下 的 每 个 文件 ,由 于 文件 中 的 值 已 经 在 0O 和 1 之 间 , 本 节 并 不 需要 使 用 2.2 节 的 autoNorm() 函数 。 

在 Python 命令 提示 符 中 输入 kKNN.handwritingclassTest () ， 测 试 该 函数 的 输出 结果 。 依 
赖 于 机 需 速 度 ， 加 载 数据 集 可 能 需要 花费 很 长 时 间 ， 然 后 困 数 开始 依次 测试 每 个 文件 ,输出 结 
如 下 所 示 : 


>>> kNN.handwritingClassTest () 
the classifier came back with: 0, the real answer is: 0 
the classifier came back with: 0, the real answer is: 0 














the classifier came back with: 
the classifier came back with: 
the classifier came back with.: 
the classifier came back with: 
the classifier came back with: 
the classifier came back with: 


; the real answer 18S: 
; the real answer is: 
; the real answer is: 
real answer 18 : 
; the real answer 18 : 
; the real answer isgs: 


OO oo oO oo ~ ~ 
(十 
DD 
Om， 

Oo Oo co co ~ ~ 


the classifier came back with: 9, the real answer is: 9 
the total number of errors is: 11 
the total error rate is: 0.011628 


大 近邻 算法 识别 手写 数字 数据 集 , 错误 率 为 1.2%。 改变 变量 k 的 值 、 修改 函数 handwriting- 
classTest 随 机 选取 训练 样本 、 改 变 训 练 样本 的 数目 ， 都 会 对 大 近邻 算法 的 错误 率 产 生 影响 ， 感 
兴趣 的 话 可 以 改变 这 些 变 量 值 ， 观 察 错误 座 的 变化 。 

实际 使 用 这 个 算法 时 , 算法 的 执行 效率 并 不 高 。 因 为 算法 需要 为 每 个 测试 回 量 做 2000 次 距离 
计算 ， 每 个 距离 计算 包括 了 1024 个 维度 浮 点 运算 ， 总 计 要 执行 900 次 ， 此 外 ， 我 们 还 需要 为 测试 
癌 量 准备 2MB 的 存储 空间 。 是 否 存 在 一 种 算法 减少 存储 空间 和 计算 时 间 的 开销 呢 ?”k 决 傈 树 束 是 
大 近邻 算法 的 优化 版 ， 可 以 节省 大 量 的 计算 开销 。 


2.4 ”本章 小 结 


矿 近 邻 算法 是 分 类 数据 最 简单 最 有 效 的 算法 ， 本 章 通过 两 个 例子 讲述 了 如 何 使 用 上 近邻 算法 
构造 分 类 各。 左近 邻 算法 是 基于 实例 的 学 习 ， 使 用 算法 时 我 们 必须 有 接近 实际 数据 的 训练 样本 数 
据 。 大 近邻 算法 必须 保存 全 部 数据 集 ， 如 果 训练 数据 集 的 很 大 , 必须 使 用 大 量 的 存储 空间 。 此 外 ， 
由 于 必须 对 数据 集中 的 每 个 数据 计算 距离 值 ， 实 际 使 用 时 可 能 非常 耗 时 。 

矿 近 邻 算法 的 另 一 个 缺陷 是 它 无 法 给 出 任何 数据 的 基础 结构 信息 ， 因 此 我 们 也 无 法 知晓 平均 
实例 样本 和 典型 实例 样本 具有 什么 特征 。 下 一 革 我 们 将 使 用 概率 测量 方法 处 理 分 类 问题 , 该 算法 
可 以 解决 这 个 问题 。 







































































本 章 内 容 

口 决策 树 简 介 

口 在 数据 集中 度量 一 致 性 
口 使 用 递归 构造 决策 树 

口 使 用 Matplotlib 绘 制 树 形 图 








你 是 否 玩 过 二 十 个 问题 的 游戏 ， 游 戏 的 规则 很 简单 : 参与 游戏 的 一 方 在 脑海 里 想 某 个 事物 ， 
其 他 参与 者 回 他 提问 题 ， 只 允许 提 20 个 问题 ， 问 题 的 答案 也 只 能 用 对 或 错 回答 。 问 问题 的 人 通过 
推断 分 解 ， 逐步 缩 小 竺 猜测 事物 的 范围 。 决 策 树 的 工作 原理 与 20 个 问题 类 似 , 用 户 输入 一 系列 数 
据 ， 然 后 给 出 游戏 的 答案 。 

我 们 经 常 使 用 决策 树 处 理 分 类 问题 ,近来 的 调查 表明 决策 树 也 是 最 经 常 使 用 的 数据 挖掘 算法 "。 
它 之 所 以 如 此 流行 , 一 个 很 重要 的 原因 就 是 不 需要 了 解 机 兹 学 习 的 知识 ,就 能 搞 明 白 决 东 树 是 如 
何 工 作 的 。 

如 果 你 以 前 没有 接触 过 决策 树 ， 完 全 不 用 担心 , 它 的 概念 非常 简单 。 即 使 不 知道 它 也 可 以 通 
过 简单 的 图 形 了 解 其 工作 原理 ， 图 3-1 所 示 的 流程 图 就 是 一 个 决 案 树 ， 长 方形 代表 判断 模块 
( decision block )， 椭 同形 代表 终止 模块 ( terminating block )， 表 示 已 经 得 出 结论 ， 可 以 终止 运行 。 
从 判断 模块 引出 的 左右 箭头 称 作 分 支 (branch )， 它 可 以 到 达 男 一 个 判断 模块 或 者 终止 模块 。 图 
3-1 构 造 了 一 个 假想 的 邮件 分 类 系统 ， 它 首先 检测 发 送 邮 件 域 名 地 址 。 如 果 地 址 为 
myEmployercom， 则 将 其 放 在 分 类 “无 聊 时 需要 阅 旋 的 邮件 ”中 。 如 采 邮 件 不 是 来 目 这 个 域名 ， 
则 检查 邮件 内 容 里 是 否 包 含 单词 曲棍球 , 如果 包含 则 将 邮件 归 类 到 “需要 及 时 处 理 的 朋友 邮件 ”， 
如 有 果 不 包 含 则 将 邮件 归 类 到 “无 需 阅 该 的 垃圾 邮件 ”。 

第 2 草 介 绍 的 左近 邻 算法 可 以 完成 很 多 分 类 任务 ， 但 是 它 最 大 的 缺点 就 是 无 法 给 出 数据 的 内 
在 含义 ,决策 树 的 主要 优势 就 在 于 数据 形式 非常 容易 理解 。 

本 章 构 造 的 决策 树 算 法 能 够 读 取 数据 集合 ， 构 建 类 似 于 图 3-1 的 决策 树 。 决 策 树 的 一 个 重要 
任务 是 为 了 数据 中 所 冀 含 的 知识 信息 ， 因此 决策 树 可 以 使 用 不 熟悉 的 数据 集合 , 并 从 中 提取 出 一 
































() Giovanni Seni and John Elder Ensemble Methods in Data Mining: Improving Accuracy Through Combining Predictins, 
Synthesis Lectures on Data Mining and Knowledge Discovery (Morgan and Claypool, 2010), 28. 
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系列 规则 ,在 这 些 机 帮 根 据 数据 集 创 建 规则 时 ,就 是 机 紫 学 习 的 过 程 。 专 家 系统 中 经 党 使 用 决策 
树 ， 而 且 决 案 树 给 出 结果 往往 可 以 匹敌 在 当前 领域 具有 几 十 年 工作 经 验 的 人 类 专家 。 














发 送 邮件 域名 地 址 为 : 


myEmployer.com 





无 聊 时 需要 包含 单词 “ 曲 棍 
阅读 的 邮件 球 ” 的 邮件 


需要 及 时 处 理 的 
朋友 邮件 


图 3-1 流程 图 形式 的 决策 树 
现在 我 们 已 经 大 致 了 解 了 决策 树 可 以 完成 哪些 任务 , 接 下 来 我 们 将 学 习 如 何 从 一 堆 原 始 数据 
中 构造 决 宁 树 。 首 先 我 们 讨论 构造 决策 树 的 方法 ， 以 及 如 何 编写 构造 树 的 Python 代码 ; 接 春 提出 
一 些 度量 算法 成 功率 的 方法 ; 最 后 使 用 递归 建立 分 类 各 ,并且 使 用 Matplotlib 绘 制 决策 树 图 。 构 
造 完 成 决策 树 分 类 器 之 后 , 我 们 将 输入 一 些 隐形 眼镜 的 处 方 数据 , 并 由 决策 树 分 类 器 预测 需要 的 


镜片 类 型 。 
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无 需 阅读 的 
垃圾 邮件 









决策 树 
优点 : 计算 复杂 度 不 高 ,输出 结果 甸 于 理解 ， 对 中 间 值 的 缺失 不 敏感 ， 可 以 处 理 不 相关 特 
征 数据 。 
缺点 : 可 能 会 产生 过 度 匹 配 问题 。 
适用 数据 类 型 : 数值 型 和 标 称 型 。 





本 市 将 通过 算法 一 步 步 地 构造 决 宋 树 ,并 会 涉及 许多 有 趣 的 细节 。 青 先 我 们 讨论 数学 上 如 何 
使 用 信息 论 划 分 数据 集 , 然后 编写 代码 将 理论 应 用 到 具体 的 数据 集 上 , 最 后 编写 代码 构建 决策 树 。 
在 构造 决策 树 时 , 我 们 需要 解决 的 第 一 个 问题 就 是 ， 当 前 数据 集 上 哪个 特征 在 划分 数据 分 类 
时 起 决定 性 作用 。 为 了 找到 决定 性 的 特征 ， 划 分 出 最 好 的 结果 ,我 们 必须 评 舍 每 个 特征 。 完 成 测 
试 之 后 , 原始 数据 集 就 被 划分 为 几 个 数据 子 集 。 这 些 数 据 子 集会 分 布 在 第 一 个 决策 点 的 所 有 分 文 
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上 。 如 果 某 个 分 文 下 的 数据 属于 同一 类 型 , 则 当前 无 需 阅 读 的 垃圾 邮件 已 经 正确 地 划分 数据 分 类 ， 
无 需 进一步 对 数据 集 进行 分 割 。 如 果 数 据 子 集 内 的 数据 不 属于 同一 类 型 ， 则 需要 重复 划分 数据 子 
集 的 过 程 。 如 何 划分 数据 子 集 的 算法 和 划分 原始 数据 集 的 方法 相同 , 直到 所 有 具有 相同 类 型 的 数 
据 均 在 一 个 数据 子 集 内 。 

创建 分 支 的 伪 代 码 图 数 createBranch () 如 下 所 示 : 


检测 数据 集中 的 每 个 子 项 是 否 属 于 同一 分 类 : 


米 了 一 全 
If so return 类 标签 ; 














Else 
寻找 划分 数据 集 的 最 好 特征 
划分 数据 集 
创建 分 支 节点 
for 每 个 划分 的 子 集 
调用 函数 createBranch 并 增加 返回 结果 到 分 支 节 点 中 


4 
return 分 支 思 点 


上 面 的 伪 代 码 createBranch 和 是 一 个 递归 函数 ,在 倒数 第 二 行 二 接 调用 了 它 目 己 。 后 面 我 们 
将 把 上 面 的 伪 代 码 转换 为 Python 代码 ， 这 里 我 们 需要 进一步 了 解 算法 是 如 何 划 分 数据 集 的 。 


决策 树 的 一 般 流程 
(1) 收集 数据 : 可 以 使 用 任何 方法 。 
(2) 准备 数据 : 树 构造 算法 只 适用 于 标 称 型 数据 ， 因 此 数值 型 数据 必须 离散 化 。 
(3) 分 析 数 据 : 可 以 使 用 任何 方法 ， 构 造 树 完 成 之 后 ， 我 们 应 该 检查 图 形 是 否 符合 预期 。 
(4) 训练 算法 : 构造 树 的 数据 结构 。 
(5) 测试 算法 : 使 用 经 验 树 计算 错误 率 。 
(6) 使 用 算法 : 此 步骤 可 以 适用 于 任何 监督 字 习 算法 ， 而 使 用 决策 树 可 以 更 好 地 理解 数据 
的 内 在 含义 。 








一 些 决策 树 算法 采用 二 分 法 划分 数据 , 本 书 并 不 采用 这 种 方法 。 如 果 依 据 某 个 属性 划分 数据 
将 会 产生 4 个 可 能 的 值 , 我 们 将 把 数据 划分 成 四 块 ,， 并 创建 四 个 不 同 的 分 文 。 本 书 将 使 用 ID3 算 法 
划分 数据 集 ， 该 算法 处 理 如 何 划 分 数据 集 ， 何 时 停止 划分 数据 集 ( 进一步 的 信息 可 以 参见 
http:/en.wikipedia.org/wikiID3 algorithm )。 每 次 划分 数据 集 时 我 们 只 选取 一 个 特征 属性 ， 如 果 训 
练 集中 存在 20 个 特征 ， 第 一 次 我 们 选择 哪个 特征 作为 划分 的 参考 属性 呢 ? 

表 3-1 的 数据 包含 5 个 海洋 动物 ， 特 征 包 括 : 不 浮 出 水 面 是 否 可 以 生存 ， 以 及 是 否 有 上 脚 跨 。 我 
们 可 以 将 这 些 动物 分 成 两 类 : 鱼 类 和 非 鱼 类 。 现在 我 们 想 要 决定 依据 第 一 个 特征 还 是 第 二 个 特征 
划分 数据 。 在 回答 这 个 问题 之 前 ,我 们 必须 采用 量化 的 方法 判断 如 何 划 分 数据 。 下 一 小 节 将 详细 


讨论 这 个 问题 。 
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表 3-1 海洋 生物 数据 


不 浮 出 水 面 是 否 可 以 生存 是 否 有 脚 中 属于 鱼 类 
1 pi 是 是 
2 是 是 是 
3 是 合 合 
4 合 是 否 
5 否 是 合 





3.1.1 信息 增益 


划分 数据 集 的 大 原则 是 : 将 无 序 的 数据 变 得 更 加 有 序 。 我 们 可 以 使 用 多 种 方法 划分 数据 集 ， 
但 是 每 种 方法 都 有 各 目的 优 缺 点 。 组 织 人 杂乱 无 章 数据 的 一 种 方法 就 是 使 用 信息 论 度 量 信息 , 信息 论 
是 量化 处 理 信息 的 分 文科 学 。 我 们 可 以 在 划分 数据 之 前 或 之 后 使 用 信息 论 量化 度量 信息 的 内 容 。 

在 划分 数据 集 之 前 之 后 信息 发 生 的 变化 称 为 信息 增益 , 知道 如 何 计算 信息 增益 , 我 们 就 可 以 
计算 每 个 特征 值 划分 数据 集 获 得 的 信息 增益 ， 获 得 信息 增益 最 高 的 特征 就 是 最 好 的 选择 。 

在 可 以 评测 哪 种 数据 划分 方式 是 最 好 的 数据 划分 之 前 , 我 们 必须 学 习 如 何 计算 信息 增益 。 集 
合 信息 的 度量 方式 称 为 香农 燃 或 者 简称 为 灿 ， 这 个 名 字 来 源 于 信息 论 之 父 克 劳 德 * 香农 。 







































































克 劳 德 。 香农 
克 劳 德 * 香农 被 公认 为 是 二 十 世纪 最 聪明 的 人 之 一 ,威廉 . 庞 德 斯 通 在 其 2005 年 出 版 的 
《财富 公式 》 一 书 中 是 这 样 描 写 克 劳 德 . 香农 的 : 
“贝尔 实验 室 和 MIT 有 很 多 人 将 香农 和 爱 因 斯 坦 相 提 并 论 ， 而 其 他 人 则 认为 这 种 对 比 是 不 
公平 的 一 一 对 香农 是 不 公平 的 。” " 


如 有 果 看 不 明白 什么 是 信息 增益 ( information gain ) 和 ( entropy )， 请 不 要 着 急 一 一 它们 自 
诞生 的 那 一 天 起 ， 就 注定 会 令 世 人 十 分 费解 。 克 劳 德 . 香农 写 完 信息 论 之 后 ,约翰 冯 … 诡 依 
曼 建 议 使 用 “ 焙 ” 这 个 术语 ， 因 为 大 家 都 不 知道 它 是 什么 意思 。 

烂 定义 为 信息 的 期 望 值 , 在 明晰 这 个 概念 之 前 ,我 们 必须 知道 信息 的 定义 。 如 采 待 分 类 的 事 
务 可 能 划分 在 多 个 分 类 之 中 ， 则 符号 x 的 信息 定义 为 

5) = -log, p(x%,) 





其 中 pGCo) 是 选择 该 分 类 的 概率 。 
为 了 计算 炸 ， 我 们 逢 要 计算 所 有 类 别 所 有 可 能 值 包 含 的 信息 期 望 值 ， 通 过 下 面 的 公式 得 到 : 


41 丑 -> D(X )log, p(x%) 


中 威廉: 庞 德 斯 通 的 《财富 公式 : 击败 赌场 和 华尔街 的 不 为 人 知 的 科学 投注 系统 》( Fortune’s Formula: The Untold 
Story of the Scientific Betting System that Beat the Casinos and Wall Street ) [Hill and Wang，2005] 第 15 页 。 
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其 中 n 是 分 类 的 数目 。 
下 面 我 们 将 学 习 如 何 使 用 Python 计 算 信 息 焙 ,创建 名 为 trees.py 的 文件 ， 将 程序 清单 3-1 的 代 
码 内 容 录 入 到 trees.py 文 件 中 ， 此 代码 的 功能 是 计算 给 定数 据 集 的 箭 。 


程序 清单 3-1 计算 给 定数 据 集 的 香农 燃 


from math import log 





def calcSshannonEnt (dataSet): 
numEntries = len (datasSet) 
labelCounts = {} 
for featVec in dataset: 
currentLabel = featVec[-1] 为 所 有 可 能 分 
类 创建 字典 
if currentLabel not in labelCounts.keys () : 
labelCounts[currentLabel] = 0 
labelCounts[currentLabel] += 1 
shannonEnt = 0.0 
for key in labelCounts: 
prob = float (labelCounts [key] ) /numEntries .9 以 2 为 底 求 对 数 
shannonEnt -= prob * log (prob,2) 
return shannonEnt 


程序 清单 3-1 的 代码 非 党 简单。 首先， 计算 数据 集中 实例 的 总 数 。 我 们 也 可 以 在 需要 时 再 计 
算 这 个 值 , 但 是 由 于 代码 中 多 次 用 到 这 个 值 , 为 了 提高 代码 效率 , 我 们 显 式 地 声明 一 个 变量 保存 
实例 总 数 。 然 后 ,创建 一 个 数据 字典 ， 它 的 键 值 是 最 后 一 列 的 数值 @。 如 果 当 前 键 值 不 存在 ， 则 
扩展 字典 并 将 当前 键 值 加 入 字典 。 每 个 键 值 都 记录 了 当前 类 别 出 现 的 次 数 。 最 后 ,使 用 所 有 类 标 
签 的 发 生 频 率 计算 类 别 出 现 的 概率 。 我 们 将 用 这 个 概率 计算 香农 炉 @, 统计 所 有 类 标签 发 生 的 次 
数 。 下 面 我 们 看 看 如 何 使 用 和 划 分 数据 集 。 

在 trees.py 文 件 中 ， 我们 可 以 利用 createDataSet () 图 数 得 到 表 3-1 所 示 的 简单 鱼 鉴 定数 据 
集 ， 你 可 以 输入 自己 的 createDataSet () 困 数 : 


def createDataSet (): 




















dataSset = [[1, 1, 'yes'] 
[1, 1, 'yes'], 
[1, 0, 'no'], 
[0, 1, 'no'l], 
[0, 1, 'no']l] 
labels = ['no surfacing', 'flippers'] 


return dataSsSet, labels 
人 人 A 人 人、 人 
在 Python 命令 提示 符 下 输入 下 列 命令 
>>> reload (trees .py) 
>>> myDat, labels=trees.createDataset () 
>>> myDat 
[[1i, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']] 
>>> trees.calcShannonEnt (myDat ) 
0.97095059445466858 


炉 越 高 , 则 混合 的 数据 也 越 多 , 我 们 可 以 在 数据 集中 添加 更 多 的 分 类 , 观察 烂 是 如 何 变化 的 。 
这 里 我 们 增加 第 三 个 名 为 mavbe 的 分 类 ,测试 箭 的 变化 : 
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>>> myDat [0] [-1]='maybe' 

>>> myDat 

[[1, 1, 'maybe'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']] 
>>> trees.calcShannonEnt (myDat,) 

1.3709505944546687 


得 到 炉 之 后 , 我 们 就 可 以 按照 获取 最 大 信息 增益 的 方法 划分 数据 集 , 下 一 节 我 们 将 具体 学 习 
如 何 划 分 数据 集 以 及 如 何 度量 信息 增益 。 

另 一 个 度量 集合 无 序 程度 的 方法 是 基尼 不 纯度 ”( Gini impurity )， 简 单 地 说 就 是 从 一 个 数据 
集中 随机 选取 子 项 , 度量 其 被 错误 分 类 到 其 他 分 组 里 的 概率 。 本 书 不 采用 基尼 不 纯度 方法 , 这 里 
就 不 青 做 进一步 的 介绍 。 下 面 我 们 将 学 习 如 何 划 分 数据 集 ， 并 创建 决策 树 。 


3.1.2 ”划分 数据 集 


上 节 我 们 学 习 了 如 何 度量 数据 集 的 无 序 程度 , 分 类 算法 除了 需要 测量 信息 烂 , 还 需要 划分 数 
据 集 , 度量 划分 数据 集 的 烂 ， 以 便 判 断 当 前 是 否 正 确 地 划分 了 数据 集 。 我 们 将 对 每 个 特征 划分 数 
据 集 的 结 末 计算 一 次 信息 箭 , 然后 判断 按照 哪个 特征 划分 数据 集 是 最 好 的 划分 方式 。 想象 一 个 分 
布 在 二 维 空间 的 数据 散 点 图 ， 需 要 在 数据 之 间 划 条 线 ， 将 它们 分 成 两 部 分 ， 我 们 应 该 按照 xz 轴 还 
是 y 轴 划 线 呢 ? 管 案 就 是 本 市 讲述 的 内 容 。 

要 划分 数据 集 ， 打 开 文 本 编辑 人 各， 在 trees.py 文 件 中 输入 下 列 的 代码 : 
程序 清单 3-2 按照 给 定 特征 划分 数据 集 


def splitDataSet (dataSet, axis, value): 









































retDataSet = [|] 
for featVec in qataSet : 0 创建 新 的 list 对 象 
if featVecl[laxis] == value: 
reducedFeatVec = featVecl[:axisl] 
reducedFeatVec.extend (featVec[axis+l1:]) 局 
retDataSet .append (reducedFeatVec,) 


return retDataSset 

程序 清单 3-2 的 代码 使 用 了 三 个 输入 参数 : 符 划 分 的 数据 集 、 划 分 数据 集 的 特征 、 需 要 返回 
的 特征 的 值 。 需 要 注意 的 是 ，Python 语 诗人 不用 考虑 内 存 分 配 问题 。Python 语 言 在 函数 中 传递 的 是 
列表 的 引用 , 在 消 数 内 部 对 列表 对 象 的 修改 ,将 会 影响 该 列表 对 象 的 整个 生存 周期 。 为 了 消除 这 
个 不 展 影响 , 我 们 需要 在 函数 的 开始 声明 一 个 新 列表 对 象 。 因为 该 函数 代码 在 同一 数据 集 上 被 调 
用 多 次 ,为 了 不 修改 原始 数据 集 , 创建 一 个 新 的 列表 对 象 @。 数 据 集 这 个 列表 中 的 各 个 元 素 也 是 
列表 , 我 们 要 遍历 数据 集中 的 每 个 元 素 , 一 旦 发 现 符合 要 求 的 值 , 则 将 其 添加 到 新 创建 的 列表 中 。 
在 if 语句 中 , 程序 将 符合 特征 的 数据 抽取 出 来 @。 后 面 讲述 得 更 简单 , 这 里 我 们 可 以 这 样 理解 这 
段 代 码 : 当 我 们 按照 茶 个 特征 划分 数据 集 时 ， 就 需要 将 所 有 符合 要 求 的 元 系 抽 取出 来 。 代 码 中 使 
用 了 了 Python 语言 列表 类 型 目 市 的 extend() 和 append() 方 法 。 这 两 个 方法 功能 类 似 , 但 是 在 处 理 
多 个 列表 时 ， 这 两 个 方法 的 处 理 结果 是 完全 不 同 的 。 




















Q 要 了 解 更 多 信息 ， 请 参考 Pan-Ning Tan, Vipin Kumar and Michael Steinbach , Introduction to Data Mining. Pearson 
Education (Addison-Wesley, 2005), 158. 





38 第 3 齐 决策 树 


假定 存在 两 个 列表 ，a 和 Pb: 


>>> a=[1,2,3] 

>>> b=[4,5,6] 

>>> a.append (b) 

>>> a 

[1, 2, 3, [4, 5, 6]] 


如 果 执 行 a.append (b) ， 则 列表 得 到 了 第 四 个 元 素 ， 而 且 第 四 个 元 素 也 是 一 个 列表 。 然 而 
如 果 使 用 extend 方 法 : 


>>> a=[1,2,3] 

>>> a.extend (pb) 
>>> a 

[1, 2, 3, 4, 5, 6] 


则 得 到 一 个 包含 a 和 b 所 有 元 素 的 列表 。 
我 们 可 以 在 前 面 的 简单 样本 数据 上 测试 限 数 splitDataSet ()。 首 
的 代码 增加 到 trees.py 文 件 中 ， 然 后 在 Python 命令 提示 符 内 输入 下 述 命令 : 
>>> reload (trees) 
<module 'trees' from 'trees.pyc'> 


>>> myDat, labels=trees.createDataSset () 

>>> myDat 

[[1, 1, 'yes'], [1i, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']] 
>>> trees.splitDatasSet (myDat,o0,1) 

[[1, 'yes'], [1i, 'yes'], [0, 'no']] 

>>> trees.splitDatasSet (myDat,o0,o) 

[[1, 'no'], [1, 'no']] 


接 下 来 我 们 将 遍历 整个 数据 集 , 循环 计算 香农 焙 和 splitDataSet () 图 数 ,找到 最 好 的 特征 
划分 方式 。 燃 计算 将 会 告诉 我 们 如 何 划 分 数据 集 是 最 好 的 数据 组 织 方 式 。 

打开 文本 编辑 需 ， 在 trees.py 文 件 中 输入 下 面 的 程序 代码 。 
程序 清单 3-3 ”选择 最 好 的 数据 集 划 分 方式 


def chooseBestFeatureToSplit (dataSet): 

















numFeatures = len(dataSset[0]) - 1 

baseEntropy = calcShannonEnt (dataSsSet) 

bestInfoGain = 0.0; bestFeature = -1 

for i in range (numFeatures): 
featList = [exampleli] for example in dataset] 人 
uniqueVals = set (featList) 


newEntropy = 0.0 

for value in uniqueVals: 
subDataSet = splitDataSet (dataSet, i, value) 易 2 计算 每 种 划分 方式 
prob = len(subDataSet)/float (len (dataSset)) 的 信息 灶 
newEntropy += prob * calcShannonEnt (SUubDataSet) 

infoGain = baseEntropy - newEntropy 

If (infoGain > bestInfoGain): 


bestInfoGain = infoGain 局 计算 最 好 的 信息 增益 





bestFeature = i 
return bestFeature 


程序 清单 3-3 给 出 了 晒 数 chooseBestFeatutreToSplit() 的 完整 代码 ， 该 图 数 实 现 选取 特 
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征 ， 划 分 数据 集 ， 计 算得 出 最 好 的 划分 数据 集 的 特征 。 困 数 chooseBestFeatureToSplit1() 使 
用 了 程序 清单 3-1 和 程序 清单 3-2 中 的 机 数 。 在 因数 中 调用 的 数据 需要 满足 一 定 的 要 求 : 第 一 个 要 
求 是 ， 数 据 必 须 是 一 种 由 列表 元 系 组 成 的 列表 ， 而 且 所 有 的 列表 元 系 都 要 具有 相同 的 数据 长 度 ; 
第 二 个 要 求 是 , 数据 的 最 后 一 列 或 者 每 个 实例 的 最 后 一 个 元 素 是 当前 实例 的 类 别 标签 。 数 据 集 一 
日 满足 上 述 要 求 , 我 们 就 可 以 在 子 数 的 第 一 行 判 定 当 前 数据 集 包 含 多 少 特征 属性 。 我 们 无 需 限 定 
list 中 的 数据 类 型 ， 它 们 既 可 以 是 数字 也 可 以 是 字符 串 ， 并 不 影响 实际 计算 。 

在 开始 划分 数据 集 之 前 ,程序 清单 3-3 的 第 3 行 代码 计算 了 整个 数据 集 的 原始 香农 箭 ， 我 们 保 
存 最 初 的 无 序 度量 从 ， 用 于 与 划分 完 之 后 的 数据 集 计 算 的 燃 值 进行 比较 。 第 1 个 for 循 环 人 遍历 数 
据 集中 的 所 有 特征 。 使 用 列表 推导 ( List Comprehension ) 来 创建 新 的 列表 ， 将 数据 集中 所 有 第 i 
个 特征 值 或 者 所 有 可 能 存在 的 值 写 人 这 个 新 list 中 人 @。 然后 使 用 Python 语 言 原生 的 集合 ( set ) 数据 
类 型 。 集 合 数据 类 型 与 列表 类 型 相似 , 不 同 之 处 仅 在 于 集合 类 型 中 的 每 个 值 互 不 相同 。 从 列表 中 
创建 集合 是 Python 语言 得 到 列表 中 唯一 元 素 值 的 最 快 方法 。 

遍历 当前 特征 中 的 所 有 唯一 属性 值 ， 对 每 个 特征 划分 一 次 数据 集合 ,然后 计算 数据 集 的 新 箭 
值 ， 并 对 所 有 唯一 特征 值得 到 的 箭 求 和 。 信 息 增 益 是 箭 的 减少 或 者 是 数据 无 序 度 的 减少 , 大 家 肯 
定 对 于 将 炉 用 于 度量 数据 无 序 度 的 减少 更 容易 理解 。 最 后 ， 比 较 所 有 特征 中 的 信息 增益 ,返回 最 
好 特征 划分 的 索引 值 合 。 

现在 我 们 可 以 测试 上 面 代 码 的 实际 输出 结果 ， 首 先 将 程序 清单 3-3 的 内 容 输 入 到 文件 trees.py 
中 ， 然 后 在 Python 命令 提示 符 下 输入 下 列 命令 : 

>>> reload (trees) 

<module 'trees' from 'trees.py'> 

>>> myDat,1labels=trees.createDataSet () 

>>> trees.chooseBestFeatureToSplit (myDat) 

0 


>>> myDat 
[[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']] 


代码 运行 结果 告诉 我 们 ， 第 0 个 特征 是 最 好 的 用 于 划分 数据 集 的 特征 。 结 果 是 否 正 确 呢 ? 这 个 
结果 又 有 什么 实际 意义 呢 ? 数据 集中 的 数据 来 源 于 表 3-1, 让 我 们 回头 再 看 一 下 表 1-1 或 者 变量 mypat 
中 的 数据 。 如 果 我 们 按照 第 一 个 特征 属性 划分 数据 ， 也 就 是 说 第 一 个 特征 是 1 的 放 在 一 个 组 ， 第 一 
个 特征 是 0 的 放 在 另 一 个 组 ， 数 据 一 致 性 如 何 ?” 按照 上 述 的 方法 划分 数据 集 ， 第 一 个 特征 为 1 的 海洋 
生物 分 组 将 有 两 个 属于 鱼 类 ， 一 个 属于 非 鱼 类 ; 另 一 个 分 组 则 全 部 属于 非 鱼 类 。 如 果 按 照 第 二 个 特 
征 分 组 ， 结 果 又 是 怎么 样 呢 ? 第 一 个 海洋 动物 分 组 将 有 两 个 属于 鱼 类 ， 两 个 属于 非 鱼 类 ; 另 一 个 分 
组 则 只 有 一 个 非 鱼 类 。 第 一 种 划分 很 好 地 处 理 了 相关 数据 。 如 果 不 相 信和 目测 结果 ， 读 者 可 以 使 用 程 
序 清单 3-1 的 calcshannonEntropy () 图 数 测试 不 同 特征 分 组 的 输出 结 

本 我 们 学 习 了 如 何 度 量 数据 集 的 信息 焙 ， 如 何 有 效 地 划分 数据 集 ， 下 一 节 我 们 将 介绍 如 何 
将 这 些 也 数 功 能 放 在 一 起 ， 构 建 决策 树 。 


3.1.3 ”递归 构建 决策 树 
目前 我 们 已 经 学 习 了 从 数据 集 构造 决策 树 算法 所 需要 的 子 功能 模块 , 其 工作 原理 如 下 : 得 到 
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原始 数据 集 , 然后 基于 最 好 的 属性 值 划 分 数据 集 ， 由 于 特征 值 可 能 多 于 两 个 , 因此 可 能 存在 大 于 
两 个 分 文 的 数据 集 划 分 。 第 一 次 划分 之 后 ,数据 将 被 回 下 传递 到 例 分 文 的 下 一 个 节点 ， 在 这 个 节 
点 上 ， 我 们 可 以 再 次 划分 数据 。 因 此 我 们 可 以 采用 递归 的 原则 处 理 数 据 集 。 

递归 结束 的 条 件 是 : 程序 遍历 完 所 有 划分 数据 集 的 属性 , 或 者 每 个 分 支 下 的 所 有 实例 都 具有 
相同 的 分 类 。 如 来 所 有 实例 具有 相同 的 分 类 ， 则 得 到 一 个 叶子 节操 或 者 终止 块 。 任 何 到 达 叶 子 市 
所 的 数据 必然 属于 叶子 节点 的 分 类 ， 参见 图 3-2 所 示 。 
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图 3-2 ”划分 数据 集 时 的 数据 路 径 

第 一 个 结束 条 件 使 得 算法 可 以 终止 , 我 们 甚至 可 以 设置 算法 可 以 划分 的 最 大 分 组 数目 。 后 续 
章节 还 会 介绍 其 他 决策 树 算法 ， 如 C4.5 和 CART， 这 些 算法 在 运行 时 并 不 总 是 在 每 次 划分 分 组 时 
都 会 消耗 特征 。 由 于 特征 数目 并 不 是 在 每 次 划分 数据 分 组 时 都 减少 , 因此 这 些 算 法 在 实际 使 用 时 
可 能 引起 一 定 的 问题 。 目前 我 们 并 不 需要 考虑 这 个 问题 , 只 需要 在 算法 开始 运行 前 计算 列 的 数目 ， 
查看 算法 是 否 使 用 了 所 有 属性 即 可 。 如 果 数 据 集 已 经 处 理 了 所 有 属性 , 但 是 类 标签 依然 不 是 唯一 
的 ， 此 时 我 们 需要 决定 如 何 定 义 该 叶子 节点 ,， 在 这 种 情况 下 , 我 们 通常 会 采用 多 数 表 决 的 方法 决 
定 该 叶子 市 点 的 分 类 。 

打开 文本 编辑 郑 ， 在 增加 下 面 的 图 数 之 前 ， 在 trees.py 文 件 顶 部 增加 一 行 代 码 : import 
operator， 然 后 添加 下 面 的 代码 到 trees.py 文 件 中 : 

def majorityCnt (classList): 


classCount={} 
for vote in classList: 


























if vote not in classCount .keys(): classCount [vote] = 0 
classCount [vote] += 1 
sortedClassCount = sorted(classCount.iteritems(),\ 


key=operator.itemgetter(1), reverse=True) 
return sortedClassCount [0] [0] 
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上 面 的 代码 与 第 2 章 classify0 部 分 的 投票 表决 代码 非常 类 似 , 该 函数 使 用 分 类 名 称 的 列表 ， 
然后 创建 键 值 为 classList 中 唯一 值 的 数据 字典 ， 字 典 对 象 存储 了 classList 中 每 个 类 标签 出 
现 的 频率 ， 最 后 利用 operator 操 作 键 值 排序 字典 ， 并 返回 出 现 次 数 最 多 的 分 类 名 称 。 

在 文本 编辑 器 中 打开 trees.py 文 件 ， 添 加 下 面 的 程序 代码 。 


程序 清单 3-4 ”创建 树 的 函数 代码 


def createTree (dataset, labels): 








classList = [example[-1] for example in dataSetl] 类 别 完全 相同 则 

if classList.count (classList[0]) == len (classList): 加 停止 继续 划分 
return classList[0] Hie 

if len(dqataSet [0]) == 1: | 属 遍历 完 所 有 特征 时 返 
return majorityCnt (classList) 回 出 现 次 数 最 多 的 

bestFeat = chooseBestFeatureToSplit (dataset) 

bestFeatLabel = labels [bestreatl] 

myTree = {bestFeatLabel:{}} 

del (labels [bestrFeatl]) 得 到 列表 包含 

featValues = [example [bestFeat] for example in dataSet] 的 所 有 属性 值 

uniqueVals = set (featValues) 


for Value in uniqueVals: 
subLabels = labelsl[:] 
myTree [bestFeatLabel] [value] = createTree (splitDatasSet\ 
(dataset, bestFeat, value),subLabels) 
return mylree 


程序 清单 3-4 的 代码 使 用 两 个 输入 参数 : 数据 集 和 标签 列表 。 标 签 列 表 包 含 了 数据 集中 所 有 
特征 的 标签 , 算法 本 号 并 不 需要 这 个 变量 , 但 是 为 了 给 出 数据 明确 的 含义 ， 我们 将 它 作 为 一 个 输 
入 参数 提供 。 此 外 ， 前 面 提 到 的 对 数据 集 的 要 求 这 里 依然 需要 满足 。 上 述 代码 首先 创建 了 名 为 
classList 的 列表 变量 , 其 中 包含 了 数据 集 的 所 有 类 标签 。 递归 国 数 的 第 一 个 停止 条 件 是 所 有 的 
类 标签 完全 相同 ， 则 直接 返回 该 类 标签 人 @。 递归 函数 的 第 二 个 停止 条 件 是 使 用 完了 所 有 特征 ,， 仍 
然 不 能 将 数据 集 划 分 成 仅 包 含 唯 一 类 别 的 分 组 @@。 由 于 第 二 个 条 件 无 法 简单 地 返回 唯一 的 类 标 
签 ， 这 里 使 用 程序 清单 3-3 的 函数 挑选 出 现 次 数 最 多 的 类 别 作为 返回 值 。 

下 一 步 程序 开始 创建 树 ， 这 里 使 用 Python 语 言 的 字典 类 型 存储 树 的 信息 ， 当 然 也 可 以 声明 特 
丈 的 数据 类 型 存储 树 ， 但 是 这 里 完全 没有 必要 。 字 典 变 量 myTree 存 储 了 树 的 所 有 信息 ， 这 对 于 
其 后 绘制 树 形 图 非常 重要 。 当 前 数据 集 选 取 的 最 好 特征 存储 在 变量 bestFeat 中 ， 得 到 列表 包含 
的 所 有 属性 值 候 。 这 部 分 代码 与 程序 清单 3-3 中 的 部 分 代码 类 似 ， 这 里 就 不 再 进一步 解释 了 。 

最 后 代码 遍历 当前 选择 特征 包含 的 所 有 属性 值 ， 在 每 个 数据 集 划 分 上 递归 调用 郴 数 
createTree() ， 得 到 的 返回 值 将 被 插入 到 字典 变量 myTree 中 ， 因 此 函数 终止 执行 时 ， 字 典 中 将 
会 铭 侠 很 多 代表 叶子 市 点 信息 的 字典 数据 。 在 解释 这 个 鹏 套数 据 之 前 , 我 们 先 看 一 下 循环 的 第 一 行 
subLabels = labels[:] ， 这 行 代码 复制 了 类 标签 ， 并 将 其 存储 在 新 列表 变量 subLabels 中 。 之 
所 以 这 样 做 ， 是 因为 在 Python 语言 中 国 数 参 数 是 列表 类 型 时 ， 人 参数 是 按照 引用 方式 传递 的 。 为 了 保 
证 每 次 调用 因数 createTree () 时 不 改变 原始 列表 的 内 容 ， 使 用 新 变量 supLabels 代 蔡 原 始 列 表 。 

现在 我 们 可 以 测试 上 面 代 码 的 实际 输出 结果 ， 首 先 将 程序 清单 3-4 的 内 容 输 入 到 文件 trees.py 
中 ， 然 后 在 Python 命令 提示 符 下 输入 下 列 命令 : 
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>>> reload (trees) 

<module 'trees' from 'trees.pyc'> 

>>> myDat, labels=trees.createDataset () 

>>> myTree = trees.createTree (myDat, labels) 

>>> myTree 

{'no surfacing': {0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}}} 


变量 myTree 包 含 了 很 多 代表 树 结构 信 息 的 艇 套 字 典 ， 从 左边 开始 ， 第 一 个 关键 字 no 
surfacing 是 第 一 个 划分 数据 集 的 特征 名 称 , 该 关键 字 的 值 也 是 男 一 个 数据 字典 。 第 二 个 关键 字 
是 no _ surfacing 特 征 划 分 的 数据 集 ， 这 些 关 键 字 的 值 是 no surfacing 届 点 的 子 太 点 。 这 些 值 
可 能 是 类 标签 ， 也 可 能 是 另 一 个 数据 字典 。 如 果 值 是 类 标签 ， 则 该 子 节 点 是 叶子 节点 ; 如 果 值 是 
男 一 个 数据 字典 ， 则 子 节 点 是 一 个 判断 节点 ,这 种 格式 结构 不 断 重 复 就 构成 了 整 棵 树 。 本 市 的 例 
子 中 ， 这 棵 树 包 含 了 3 个 叶子 节点 以 及 2 个 判断 节点 。 

本 节 讲 述 了 如 何 正确 地 构造 树 , 下 一 节 将 介绍 如 何 绘制 图 形 , 方便 我 们 正确 理解 数据 信息 的 
内 在 含义 。 


3.2 在 Python 中 使 用 Matplotlib 注解 绘制 树 形 图 


上 市 我 们 已 经 学 习 了 如 何 从 数据 集中 创建 树 , 然而 字典 的 表示 形式 非常 不 易于 理解 ,而且 直 
接 绘制 图 形 也 比较 困难 。 本 节 我 们 将 使 用 Matplotlib 库 创建 树 形 图 。 决 策 树 的 主要 优点 就 是 直观 
易于 理解 ， 如 采 不 能 将 其 直观 地 显示 出 来 ， 就 无 法 发 挥 其 优势 。 虽 然 前 面 章 节 我 们 使 用 的 图 形 库 
已 经 非 第 强大 ,但 是 Python 并 没有 提供 绘制 树 的 工具 ， 因 此 我 们 必须 目 己 绘 制 树 形 图 。 本 市 我 们 
将 学 习 如 何 编写 代码 绘制 如 图 3-3 所 示 的 决 案例 。 






































图 3-3” 决 岳 树 的 范例 
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3.2.1 ”Matplotlib 注解 


Matplotlib 提 供 了 一 个 注解 工具 annotations， 非 常 有 用 ， 它 可 以 在 数据 图 形 上 添加 文本 注 
释 。 注解 通 常用 于 解释 数据 的 内 容 。 由 于 数据 上 面 直接 存在 文本 描述 非常 丑陋 ,因此 工具 内 杉 支 
持 带 箭头 的 划 线 工具 ， 使 得 我 们 可 以 在 其 他 恰当 的 地 方 指向 数据 位 置 ， 并 在 此 处 添加 描述 信息 ， 
解释 数据 内 容 。 如 图 3-4 所 示 ,在 坐标 (0.2, 0.1) 的 位 置 有 一 个 点 ,我 们 将 对 该 点 的 描述 信息 放 在 (0.35， Bi 
0.3) 的 位 置 ， 并 用 和 区 头 指 回 数 据点 (0.2, 0.1)。 
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图 3-4 ”Matplotlib 注 解 示 例 


绘制 还 是 图 形 化 
为 什么 使 用 单词 “绘制 ” (plot )? 为 什么 在 讨论 如 何在 图 形 上 显示 数据 的 时 候 不 使 用 单词 
( graph ) ? 这 里 存在 一 些 语 言 上 的 差别 ， 英 语 单词 graph 在 某 些 学 科 中 具有 特定 的 含 
义 ， 如 在 应 用 数学 中 , 一 系列 由 边 连接 在 一 起 的 对 象 或 者 节点 称 为 图 。 节点 的 任意 联系 都 可 以 
通过 边 来 连接 。 在 计算 机 科学 中 ,图 是 一 种 数据 结构 ， 用 于 表示 数学 上 的 概念 。 好 在 汉语 并 不 
存在 这 些 混 消 的 概念 ， 这 里 就 统一 使 用 绘制 树 形 图 。 





本 书 将 使 用 Matplotlib 的 注解 功能 绘制 树 形 图 ， 它 可 以 对 文学 着 色 并 提供 多 种 形状 以 供 选 择 ， 
而 且 我 们 还 可 以 反 转 箭头 ， 将 它 指 回 文本 框 而 不 是 数据 点 。 打 开 文 本 编辑 器 ， 创 建 名 为 
treePlotterpy 的 新 文件 ， 然 后 输入 下 面 的 程序 代码 。 


程序 清单 3-5 ”使 用 文本 注解 绘制 树 节 点 


import matplotlib.pyplot as plt 





decisionNode = dict (boxstyle="sawtooth", fc="0.8") i SW 
王 不 月 J 尖 
leafNode = dict (boxstyle="round4", fc="0.8") 月 定义 文本 框 和 箭头 格式 
arrow _ args = dict (arrowstyle="<-") 
def plotNode (nodeTxt, centerpt, parentpt, nodeType): 局 绘制 带 稍 头 的 注解 
createplot.axl.annotate (nodeTxt, xy=parentpt,\ 


XyCcoords='axes fraction',\ 
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xytext=centerpt, textcoords='axes fraction',\ 
va="center'", ha="center", bbox=nodeType, arrowprops=arrow args) 


def createplot(): 
fig = plt.figure(1, facecolor='white') 


fig.clf () 

createplot.axl = plt.subplot (111, frameon=False) 
PlotNode (U' 决 策 节 点 '， (0.5,，0.1)， (0.1,， 0.5)， decisionNode) 
plotNode (Un 叶 节 点 2 (0.8,; 0.1),， (0.3, 0.8),， leafNode) 

plt .Show () 


这 是 第 一 个 版 本 的 createPlot () 痕 数 ， 与 例子 文件 中 的 createPlot () 国 数 有 些 不 同 ， 随 
着 内 容 的 深入 ， 我 们 将 逐步 添加 缺失 的 代码 。 代 码 定义 了 树 节 点 格式 的 常量 人 @。 然 后 定义 
plotNode () 限 数 执行 了 实际 的 绘图 功能 ， 该 限 数 需要 一 个 绘图 区 ， 该 区 域 由 全 局 变量 
createPlot .axl 定 义 。Python 语 言 中 所 有 的 变量 默认 都 是 全 局 有 效 的 ， 只 要 我 们 清楚 知道 当前 
代码 的 主要 功能 , 并 不 会 引入 太 大 的 奔 烦 。 最 后 定义 createPlot () 国 数 , 它 是 这 上 段 代码 的 核心 。 
createPlot () 国 数 首先 创建 了 一 个 新 图 形 并 清空 绘图 区 , 然后 在 绘图 区 上 绘制 两 个 代表 不 同类 
型 的 树 节 点 ， 后 面 我 们 将 用 这 两 个 市 点 绘制 树 形 图 。 

为 了 测试 上 面 代码 的 实际 输出 结果 ， 打开 Python 命令 提示 符 ， 导 人 treePlotter 模 块 . 


>>> import treeplotter 
>>> treePplotter.createplot() 


程序 的 输出 结果 如 图 3-5 所 示 ， 我 们 也 可 以 改变 函数 plotNode ()@, 观察 图 中 x、y 位 置 如 何 


变化 。 
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图 3-$ ”函数 plotNode 的 例子 
现在 我 们 已 经 党 握 了 如 何 绘制 树 点 ， 下 面 将 学 习 如 何 绘制 整 棵 树 。 
3.2.2 ”构造 注解 树 


绘制 一 棵 完整 的 树 需要 一 些 技 巧 。 我 们 虽然 有 x、J) 坐 标 ， 但 是 如 何 放置 所 有 的 树 节 点 却 是 个 问 
毁 。 我 们 必须 知道 有 多 少 个 叶 市 点 ， 以 便 可 以 正确 确定 x 轴 的 长 度 ; 我 们 还 需要 知道 树 有 多 少 层 ， 
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以 便 可 以 正确 确定 y 轴 的 高 度 。 这 里 我 们 定义 两 个 新 水 数 getNumLeafs () 和 getTreeDepth() ,来 
获取 叶 忆 点 的 数目 和 树 的 层 数 ， 参 见 程 序 清单 3-6， 并 将 这 两 个 也 数 添加 到 文件 treePlotter.py 中 。 


程序 清单 3-6 获取 叶 节 点 的 数 日 和 树 的 层 数 
def getNumLeafs (myTree): 
numLeafs = 0 
firstStr = myTree.keys() [0] 
secondDict = myTree [firstSstrl] 
for key in secondDict .keys () : 


if ee ef . | 测试 节点 的 数据 
umLeafs += getNumLeafs (secondDic ey 类 型 是 否 为 字典 
else: numLeafs +=1 


return numLeafs 


def getTreeDepth (myTree): 
maxDepth = 0 
firstStr = myTree.keys() [0] 
secondDict = myTree [firstSstrl] 
for key in secondDict.keys () : 


if type (secongdDict [key]). name =='dict': 
thisDepth = 1 + getTreeDepth (secondDict [Key] ) 
else: thisDepth = 1 


if thisDepth > maxDepth: maxDepth = thisDepth 
return maxDepth 


上 述 程序 中 的 两 个 函数 具有 相同 的 结构 ,后面 我 们 也 将 使 用 到 这 两 个 函数 。 这 里 使 用 的 数据 
结构 说 明了 如 何在 Python 字典 类 型 中 存储 树 信 息 。 第 一 个 关键 字 是 第 一 次 划分 数据 集 的 类 别 标 
签 ， 附 带 的 数值 表示 子 市 点 的 取 值 。 从 第 一 个 关键 字 出 发 ， 我们 可 以 裔 历 整 棵 树 的 所 有 子 市 点 。 
使 用 Python 提供 的 type () 也 数 可 以 判断 子 市 点 是 否 为 字典 类 型 @。 如 有 果子 市 点 是 字典 类 型 ， 则 
该 市 点 也 是 一 个 判断 太 点 ， 需 要 递归 调用 getNumLeafs () 为数 。getNumLeafs () 函数 届 历 整 标 
树 ， 累计 叶子 市 点 的 个 数 ， 并 返回 该 数值 。 第 2 个 函数 getTreeDepth() 计 算 过 历 过 程 中 过 到 判 
新 节点 的 个 数 。 该 函数 的 终止 条 件 是 叶子 节点 ， 一 旦 到 达 叶 子 节 点 ， 则 从 递归 调用 中 返回 ， 并 将 
计算 树 深度 的 变量 加 一 。 为 了 节省 大 家 的 时 间 ， 涵 数 retrieveTree 输 出 预先 存储 的 树 信息 ， 避 
人 免 了 每 次 测试 代码 时 都 要 从 数据 中 创建 树 的 麻烦 。 

添加 下 面 的 代码 到 文件 treePlotterpy 中 : 


def retrieveTree (i): 
listOfTrees =[{'no surfacing': {0: 'no', 1: {'flippers': \ 
{0: 'no', 1: 'yes'}}}}, 
{'no surfacing': {0: 'no', 1: {'flippers': \ 
{0: {'head': {0: 'no', 1: 'yes'}}, 1: 'no'}}}} 
] 


return listOfTrees [i] 
保存 文件 treePlotter.py， 在 Python 命 令 提 示 符 下 输入 下 列 命 令 : 


>>> reload (treePlotter) 
<module 'treeplotter' from 'treeplotter.py'> 
>>> treepPlotter.retrieveTree (1) 
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{'no surfacing': {0: 'no', 1: {'flippers': {0: {'head': {0: 'no', 1: 
Year he TY moh] 

>>> myTree = treePlotter.retrieveTree (0) 

>>> treePplotter.getNumLeafs (myTree) 

3 

>>> treeplotter.getTreeDepth (myTree) 

2 


中 数 retrieveTree () 主要 用 于 测试 , 返回 预定 义 的 树 结构 。 上 述 命 令 中 调用 getNumLeafs () 
负数 返回 值 为 3， 等 于 树 0 的 叶子 万 点 数 ; 调用 getTreeDepths () 函数 也 能 够 正确 返回 树 的 层 数 。 

现在 我 们 可 以 将 前 面 学 到 的 方法 组 合 在 一 起 , 绘制 一 棵 完整 的 树 。 最 终 的 结果 如 图 3-6 所 示 ， 
但 是 没有 x 和 y 轴 标签 。 
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图 3-6 ”人 单数 据 集 绘制 的 树 形 图 


打开 文本 编辑 希 ， 将 程序 清单 3-7 的 内 容 添 加 到 treePlotterpy 文 件 中 。 注 意 ， 前 文 已 经 在 文件 
中 定义 了 本 数 createPlot () ， 此 处 我 们 需要 更 新 这 部 分 代码 。 








程序 清单 3-7 ”plotTree 困 数 


def plotMidText (cntrpt, parentpt, txtString): ge 、 
~ 占 言 息 
xMid = (parentpt [0] -cntrpt [0])/2.0 + cntrpt [0] 在 父子 节点 间 填 充 文本 信 筷 
yMid = (parentPt[1] -cntrPt[1])/2.0 + cntrpt [1] 


Createplot .axl.text (xMid, yMid, txtString) 


def plotTree (myTree, parentpt, nodeTxt): 
numLeafs = getNumLeafs (myTree) 思 计算 宽 与 高 
depth = getTreeDepth (myTree) 
firstStr = myTree.keys() [0] 
cntrPt = (plotTree.xOff + (1.0 + float (numLeafs))/2.0/plotTree.totalW,\ 
plotTree .yOff) 
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plotMidText (cntrpt, parentpt, nodeTxt) 
plotNode (firstStr, cntrpt, parentPt, decisionNode) 08 标记 子 节 点 属性 值 
secondDict = myTree [firstSstr] 
plotTree.yOff = plotTree.yOff - 1.0/plotTree.totalD 局 减少 y 偏 移 
for key in secondDict.keys(): 
if type (secondDict [key]). name =='dict': 
plotTree (secondDict [key] ,cntrpt, str (key)) 
else: 
plotTree.xOff = plotTree.xOff + 1.0/plotTree.totalWw 
plotNode (secondDict [key], (plotTree.xOff, plotTree.yOff),\ 


cntrPpt, leafNode) 
plotMidText ( (plotTree.xOff, plotTree.yOoff), cntrpt, str(key)) 
plotTree.yOff = plotTree.yOff + 1.0/plotTree.totalD 


def createPlot (inTree): 
fig = plt.figure(1, facecolor='white') 
fig.clf () 
axprops = dict (xticks=[], yticks=[]) 
createplot.axl = plt.subplot (111, frameon=False, **axprops) 
plotTree.totalw float (getNumLeafs (inTree)) 
plotTree.totalD = float (getTreeDepth (inTree)) 


plotTree.xOff = -0.5/plotTree.totalW; plotTree.yOff = 1.0; 
plotTree (inTree, (0.5,1.0), '') 
plt .show() 


国 数 createPlot () 是 我 们 使 用 的 主 也 数 , 它 调用 了 plotTree () , 困 数 plotTree 又 依次 调 
用 了 前 面 介绍 的 函数 和 plotMidText () ,绘制 树 形 图 的 很 多 工作 都 是 在 函数 plotTree () 中 完成 
的 ， 疯 数 plotTree () 首先 计算 树 的 宽 和 高 @@。 全 局 变量 plotTree .totalw 存 储 树 的 宽度 ， 全 
局 变量 plotTree .totalD 存 储 树 的 深度 ， 我 们 使 用 这 两 个 变量 计算 树 市 点 的 摆 放 位 置 ， 这 样 可 
以 将 树 绘 制 在 水 平方 向 和 垂直 方向 的 中 心 位 置 。 与 程序 清单 3-6 中 的 图 数 getNumLeafs () 和 
getTreeDepth() 类似 ， 限 数 plotTree() 也 是 个 递归 荫 数 。 树 的 宽度 用 于 计算 放置 判断 节点 的 
位 置 ， 主 要 的 计算 原则 是 将 它 放 在 所 有 叶子 节点 的 中 间 ， 而 不 仅仅 是 它 子 节点 的 中 间 。 同 时 我 们 
使 用 两 个 全 局 变量 plotTree .XxOff 和 plotTree .yOf f 追 踩 已 经 绘制 的 节点 位 置 ， 以 及 放置 下 一 
个 节点 的 恰当 位 置 。 另 一 个 需要 说 明 的 问题 是 ， 绘 制图 形 的 x 轴 有 效 范 围 是 0.0 到 1.0，7 轴 有 效 范 
围 也 是 0.0 ~ 1.0。 为 了 方便 起 见 ， 图 3-6 给 出 具体 坐标 值 ， 实 际 输出 的 图 形 中 并 没有 x*、J) 坐 标 。 通 
过 计算 树 包含 的 所 有 叶子 节点 数 ， 划 分 图 形 的 宽度 ， 从 而 计算 得 到 当前 节点 的 中 心 位 置 , 也 就 是 
说 ， 我 们 按照 叶子 节点 的 数目 将 xz 轴 划 分 为 符 干 部 分 。 按 照 图 形 比例 绘制 树 形 图 的 最 大 好 处 是 无 
需 关 心 实际 输出 图 形 的 大 小 , 一 旦 图 形 大 小 发 生 了 变化 ， 吧 数 会 自动 按照 图 形 大 小 重新 绘制 。 如 
果 以 像 系 为 单位 绘制 图 形 ， 则 缩放 图 形 就 不 是 一 件 简单 的 工作 。 

接着 ， 绘 出 子 节点 具有 的 特征 值 ， 或 者 沿 此 分 支 向 下 的 数据 实例 必须 具有 的 特征 值 合 .使 用 
国 数 plotMiaTrext () 计 算 父 节点 和 子 节点 的 中 间 位 置 ， 并 在 此 处 添加 简单 的 文本 标签 信息 @。 

然后 , 按 比 例 减少 全 局 变量 plotTree .yOf Ee 并 标注 此 处 将 要 绘制 子 节 点 @@， 这 些 市 点 既 可 以 
是 叶子 节点 也 可 以 是 判断 节点 ， 此 处 需要 只 保存 绘制 图 形 的 轨迹 。 因 为 我 们 是 自 项 向 下 绘制 图 形 ， 
因此 需要 依次 递减 ?坐标 值 ， 而 不 是 递增 7 坐标 值 。 然 后 程序 采用 国 数 getNumLeafs() 和 
getTreeDepth () 以 相同 的 方式 递归 遍历 整 棵 树 ， 如 果 市 点 是 叶子 节点 则 在 图 形 上 夯 出 叶子 市 点 ， 
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如 琳 不 是 叶子 市 点 则 递归 调用 plotTree() 也 数 ,在 绘制 了 所 有 了 于 市 点 之 后 ,增加 全 局 变量 Y 的 仿 移 。 

程序 清单 3-7 的 最 后 一 个 函数 是 createPlot () ， 它 创建 绘图 区 ， 计 算 树 形 图 的 全 局 尺寸 ， 
并 调用 递归 函数 plotTree () 。 

现在 我 们 可 以 验证 一 下 实际 的 输出 效果 。 添 加 上 述 代 码 到 文件 treePlotter.py 之 后 ， 在 Python 
命令 提示 符 下 输入 下 列 命令 : 

>>> reload (treeplotter) 

<module 'treePplotter' from 'treeplotter.pyc'> 


>>> myTree=treeplotter.retrieveTree (0) 
>>> treePplotter.createPlot (myTree) 


输出 效果 如 图 3-6 所 示 ， 但 是 没有 坐标 轴 标 签 。 接 看 按照 如 下 命令 变更 字典 ， 重 新 绘制 树 形 图 : 

>>> myTree [no surfacing'] [31]='maybe'! 

>>> myTree 

{'no surfacing ': {0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}, 3: 

'maybe'}} 

>>> treePplotter.createPlot (myTree) 
输出 效 采 如 图 3-7 所 示 ， 有 点 像 一 个 无 头 的 容 笔 男 。 你 也 可 以 在 树 字 典 中 随意 添加 一 些 数 据 ， 并 
重新 绘制 树 形 图 观察 输出 结 末 的 变化 。 

到 目前 为 止 , 我 们 已 经 学 习 了 如 何 构 造 决 策 树 以 及 绘制 树 形 图 的 方法 ,下 市 我 们 将 实际 使 用 
这 些 方法 ， 并 从 数据 和 算法 中 得 到 菏 些 新 知识 。 























(no) yes 
图 3-7 ”超过 两 个 分 文 的 树 形 图 


3.3 测试 和 存储 分 类 器 


本 书 第 一 部 分 主要 讲解 机 融 学 习 的 分 类 算法 , 然而 到 目前 为 止 , 本 章 学 习 的 主要 内 容 是 如 何 
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从 原始 数据 集中 创建 决策 树 ， 并 使 用 Python 函 数 库 绘制 树 形 图 ， 方 便 我 们 了 解数 据 的 真实 含义 ， 
下 面 我 们 将 把 重点 转移 到 如 何 利用 决 俩 树 执行 数据 分 类 上 。 

本 闻 我 们 将 使 用 决策 树 构 建 分 类 融 ,， 以 及 实际 应 用 中 如 何 存 储 分 类 带 。 下 一 节 我 们 将 在 真实 
数据 上 使 用 决策 树 分 类 算法 ， 验 证 它 是 否 可 以 正确 预测 出 患者 应 该 使 用 的 隐形 眼镜 类 型 。 


3.3.1 测试 算法 : 使 用 决策 树 执行 分 类 


依 徘 训练 数据 构造 了 决策 树 之 后 ， 我 们 可 以 将 它 用 于 实际 数据 的 分 类 。 在 执行 数据 分 类 时 ， 
需要 决 宋 树 以 及 用 于 构造 树 的 标签 辣 量 。 然后 , 程序 比较 测试 数据 与 决 琳 树 上 的 数值 ,递归 执行 
该 过 程 下 到 进入 叶子 市 点 ;最 后 将 测试 数据 定义 为 叶子 节点 所 属 的 类 型 。 

为 了 验证 算法 的 实际 效 末 , 打开 文本 编辑 休 , 将 程序 消音 3-8 包 含 的 代码 添加 到 文件 rees.py 中 。 





程序 清单 3-8 ”使 用 决策 树 的 分 类 函数 
def classify(inputTree, featLabels,testVec): 
firstSstr = inputTree.keys() [0] 
secondDict = inputTree [firstStr] -9 将 标签 字符 串 转 换 为 索引 
featIndeXx = featLabels.index (firstStr) 
for key in secondDict.keys () : 


if testVeclfeatIindex] == Key : 
if type (secondDict[key]). name =='dict': 
classLabel = classify(secondDict [keyl] ,featLabels,testVec) 
else: classLabel = secondDict [keyl] 


return classLabel 

程序 清单 3-8 定 义 的 图 数 也 是 一 个 递归 因数 ， 在 存储 市 有 特征 的 数据 会 面临 一 个 问题 : 程序 
无 法 确定 特征 在 数据 集中 的 位 置 ， 例 如 前 面 例子 的 第 一 个 用 于 划分 数据 集 的 特征 是 no 
surfacing 属 性 ,但 是 在 实际 数据 集中 该 属性 存储 在 哪个 位 置 ? 是 第 一 个 属性 还 是 第 二 个 属性 ? 
特征 标签 列表 将 帮助 程序 处 理 这 个 问题 。 使 用 index 方 法 查找 当前 列表 中 第 一 个 匹配 firststr 
变量 的 元 素 @。 然后 代码 递归 遍历 整 棵 树 ， 比 较 testvec 变 量 中 的 值 与 树 节点 的 值 ， 如 果 到 达 叶 
子 市 态 ， 则 返回 当前 市 点 的 分 类 标签 。 

将 程序 清单 3-8 包 含 的 代码 添加 到 文件 trees.py 之 后 ， 打 开 Python 命 令 提示 符 ， 输 入 下 列 命 令 : 

>>> myDat, labels=trees.createDataSsSet () 

>>> labels 

['no surfacing', 'flippers'] 

>>> myTree=treeplotter.retrieveTree (0) 

>>> myTree 

{'no surfacing': {0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}}} 

>>> trees.classify (myTree,1labels, [1,0]) 

1 no 1 

>>> trees.classify (myTree,1labels, [1,1]) 

1 yes 1 


与 图 3-6 比 较 上 述 输出 结果 。 第 一 节点 名 为 no surfacing， 它 有 两 个 子 节 点 : 一 个 是 名 字 为 0 的 
叶子 节点 ， 类 标签 为 no; 兄 一 个 是 名 为 flippers 的 判断 节点 ， 此 处 进入 递归 调用 ，flippers 世 点 有 两 
个 子 市 点 。 以 前 绘制 的 树 形 图 和 此 处 代表 树 的 数据 结构 完全 相同 。 
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现在 我 们 已 经 创建 了 使 用 决策 树 的 分 类 需 ， 但 是 每 次 使 用 分 类 融 时 ， 必 须 重 新 构造 决策 树 ， 
下 一 市 我 们 将 介绍 如 何在 便 盘 上 存储 决 末 树 分 类 带 。 


3.3.2 ”使 用 算法 : 决策 树 的 存储 


构造 决策 树 是 很 耗 时 的 任务 ， 即 使 处 理 很 小 的 数据 集 ， 如 前 面 的 样本 数据 ,也 要 花费 几 秒 的 
时 间 ， 如 果 数 据 集 很 大 ， 将 会 耗费 很 多 计算 时 间 。 然 而 用 创建 好 的 决策 树 解 决 分 类 问题 ， 则 可 以 
很 快 完成 。 因 此 ， 为 了 市 省 计算 时 间 ， 最 好 能 够 在 每 次 执行 分 类 时 调用 已 经 构造 好 的 决策 树 。 为 
了 解决 这 个 问题 , 需要 使 用 Python 模 块 pickle 序 列 化 对 象 , 参见 程序 清单 3-9。 序列 化 对 象 可 以 在 人 磁 
盘 上 保存 对 象 , 并 在 需要 的 时 候 读 取出 来 。 任何 对 象 都 可 以 执行 序列 化 操作 ,字典 对 象 也 不 例外 。 


程序 清单 3-9 ”使 用 pickle 模 块 存储 决策 树 
def storeTree (inputTree,filename): 
import pickle 
fw = open(filename, 'w'!) 
pickle.dump (inputTree, fw) 
fw.close() 








def grabTree (filename): 
import pickle 
fr = open (filename) 
return pickle.1load(fr) 


在 Python 命令 提示 符 中 输入 下 列 命令 验证 上 述 代 码 的 效果 : 
>>> trees.storeTree (myTree, 'classifierStorage.txt') 


>>> trees.grabTree('classifierStorage.txt') 
{'no surfacing': {0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}})} 


通过 上 面 的 代码 ,我们 可 以 将 分 类 天 存储 在 便 盘 上 , 而 不 用 每 次 对 数据 分 类 时 重新 学 习 一 遇 ， 
这 也 是 决策 树 的 优点 之 一 ， 像 第 2 草 介 绍 了 大 近邻 算 法 就 无 法 持久 化 分 类 天 。 我 们 可 以 预 抑 提 烁 
并 存储 数据 集中 包含 的 知识 信息 , 在 需要 对 事物 进行 分 类 时 再 使 用 这 些 知 识 。 下 市 我 们 将 使 用 这 
些 工 具 处 理 隐形 眼镜 数据 集 。 


3.4 ”示例 : 使 用 决策 树 预测 隐形 眼镜 类 型 


本 万 我 们 将 通过 一 个 例子 讲解 决策 树 如 何 预测 患者 需要 佩戴 的 隐形 眼镜 类 型 。 使 用 小 数据 
集 , 我 们 就 可 以 利用 决策 树 学 到 很 多 知识 : 眼科 医生 是 如 何 判断 患者 需要 佩戴 的 镜片 类 型 ; 一 旦 
理解 了 决 傈 树 的 工作 原理 ,我 们 其 至 也 可 以 帮助 人 们 判断 需要 佩戴 的 镜 厂 类 型 。 

















示例 : 使 用 决策 树 预测 隐形 眼镜 类 型 
(1) 收集 数据 : 提供 的 文本 文件 。 
(2) 准备 数据 : 解析 tab 键 分 隔 的 数据 行 。 
(3) 分 析 数 据 : 快速 检查 数据 ， 确 保 正 确 地 解析 数据 内 容 ， 使 用 createPlot () 函数 绘制 
最 终 的 树 形 图 。 


3.4 示例 : 使 用 决策 树 预 测 隐 形 眼 镜 类 型 51 


(4) 训练 算法 : 使 用 3.1 节 的 createTree () 函数 。 
(5) 测试 算法 : 编写 测试 函数 验证 决策 树 可 以 正确 分 类 给 定 的 数据 实例 。 
(6) 使 用 算法 : 存储 树 的 数据 结构 ， 以 便 下 次 使 用 时 无 需 重 新 构造 树 。 








隐形 眼镜 数据 集 * 是 非常 著名 的 数据 集 ， 它 包含 很 多 患者 眼 部 状况 的 观察 条 件 以 及 医生 推荐 的 
隐形 眼镜 类 型 。 隐 形 眼镜 类 型 包括 便 材 质 、 软 材质 以 及 不 适合 佩戴 隐形 眼镜 。 数 据 来 源 于 UCI 数 据 
库 , 为 了 更 容易 显示 数据 , 本 书 对 数据 做 了 简单 的 更 改 , 数据 存储 在 源 代码 下 载 路 径 的 文本 文件 中 。 

可 以 在 Python 命令 提示 符 中 输入 下 列 命令 加 载 数据 : 

>>> fr=open('lenses.txt') 

>>> lenses=[inst.strip() .split('\t') for inst in fr.readlines()] 
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>>> lensesLabels=['age', ‘'prescript', 'astigmatic', 'tearRate'l] 

>>> lensesTree = trees.createTree (lenses, lensesLabels) 

>>> lensesTree 

{'tearRate': {'reduced': 'no lenses', 'normal': {'astigmatic': {'yes': 
{'prescript': {'hyper': {'age': {'pre': 'no lenses', 'presbyopic': 

'no lenses', 'young':'hard'}}, 'myope': 'hard'}}, 'no': {'age': {'pre': 
'soft', 'presbyopic': {'prescript': {'hyper': 'soft', 'myope': 


'no lenses'}}, 'young': 'soft'}}}}})} 
>>> treeplotter.createplot (lensesTree,) 


采用 文本 方式 很 难 分 辨 出 决策 树 的 模样 ， 最 后 一 行 命令 调用 createPlot () 因数 绘制 了 如 图 
3-8 所 示 的 树 形 图 。 沉 看 决策 树 的 不 同 分 支 ， 我 们 可 以 得 到 不 同 患者 需要 佩戴 的 隐形 眼镜 类 型 。 从 
图 3-8 上 我 们 也 可 以 发 现 ， 医 生 最 多 需要 问 四 个 问题 就 能 确定 患者 需要 佩戴 哪 种 类 型 的 隐形 眼镜 。 











图 3-8 由 ID3 算 法 产生 的 决策 树 


GD The dataset is a modified version of the Lenses dataset retrieved from the UCI Machine Learning Repository November 3， 
2010 [http://archive.ics.uci.edu/ml/machine-learning-databases/lenses/]. The source of the data 1s Jadzia Cendrowska and 


was originally published in “PRISM: An algorithm for mducing modular rules,” in International Journal of Man-Machine 
Studies (1987), 27, 349—70.) 
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图 3-8 所 示 的 决 抹 树 非 第 好 地 匹配 了 实验 数据 ， 然 而 这 些 匹配 选项 可 能 太 多 了 。 我 们 将 这 种 
问题 称 之 为 过 度 匹 配 ( overfitting )。 为 了 减少 过 大 匹配 问题 ， 我 们 可 以 裁 雯 决策 树 ， 去 挥 一 些 不 
必要 的 叶子 市 点。 如 来 叶子 市 点 只 能 增加 少许 信息 ， 则 可 以 删除 该 三 态 ， 将 它 并 入 到 其 他 叶子 市 
点 中 。 第 9 草 将 进一步 讨论 这 个 问题 。 

第 9 章 将 学 习 另 一 个 决策 树 构造 算法 CART， 本 章 使 用 的 算法 称 为 ID3， 它 是 一 个 好 的 算法 但 
并 不 完美 。ID3 算 法 无 法 直接 处 理 数 值 型 数据 ， 尽 管 我 们 可 以 通过 量化 的 方法 将 数值 型 数据 转化 
为 标 称 型 数值 ， 但 是 如 果 存 在 太 多 的 特征 划分 ，ID3 算 法 仍然 会 面临 其 他 问题 。 


























3.5 本章 小 结 


决 宁 树 分 类 带 就 像 市 有 终止 块 的 流程 图 , 终止 块 表示 分 类 绪 采 。 开 始 处 理 数 据 集 时 ,我 们 首 
先 需 要 测量 集合 中 数据 的 不 一 致 性 ,也 如 是 箭 ,然后 寻找 最 优 方案 划分 数据 集 ， 和 直到 数据 集中 的 
所 有 效 据 属于 同一 分 类 。ID3 算 法 可 以 用 于 划分 标 称 型 数据 集 。 构 建 决策 树 时 ， 我 们 通 稼 采用 递 
归 的 方法 将 数据 集 转化 为 决策 树 。 一 般 我 们 并 不 构造 新 的 数据 结构 ， 而 是 使 用 Python 语言 内 航 的 
数据 结构 字典 存储 树 世 点 信息 。 

使 用 Matplotlib 的 注解 功能 , 我 们 可 以 将 存储 的 树 结 构 转 化 为 容易 理解 的 图 形 。Python 语 言 的 
pickle 模 块 可 用 于 存储 决策 树 的 结构 。 隐形 眼 饶 的 例子 表明 决 傈 树 可 能 会 产生 过 多 的 数据 集 划 分 ， 
从 而 产生 过 度 匹 配 数 据 集 的 问题 。 我 们 可 以 通过 裁 艾 决 岳 树 , 合并 相 邻 的 无 法 产生 大 量 信息 增益 
的 叶 节 点 ， 消 除 过 度 匹 配 问 题 。 

还 有 其 他 的 决策 树 的 构造 算法 ,最 流行 的 是 C4.5 和 CART, 第 9 章 讨 论 回归 问题 时 将 介绍 CART 
算法 。 

本 书 第 2 草 、 第 3 草 讨 论 的 是 结 来 确定 的 分 类 算法 ,数据 实例 最 终 会 被 明确 划分 到 东 个 分 类 中。 
下 一 章 我 们 讨论 的 分 类 算法 将 不 能 完全 确定 数据 实例 应 该 划分 到 东 个 分 类 , 或 者 只 能 给 出 数据 实 
例 属于 给 定 分 类 的 概率 。 






































基于 概率 论 的 分 类 力 法 : 
朴素 贝 叶 斯 


本 章 内 容 

口 使 用 概率 分 布 进行 分 类 

口 学 习 朴素 由 叶 斯 分 类 和 

口 解析 RSS 源 数据 

口 使 用 朴 和 半山 叶 斯 来 分 析 不 同 地 区 的 态度 





前 两 章 我 们 有 要求 分 类 融 做 出 艰难 决 宁 ， 给 出 “该 数据 实例 属于 哪 一 类 ”这 类 问题 的 明确 答 
案 。 不 过 ， 分 类 玉 有 时 会 产生 错误 结 东 ,这 时 可 以 要 求 分 类 融 给 出 一 个 最 优 的 类 别 猜 测 绪 采 ， 同 
时 给 出 这 个 猜测 的 概率 舍 计 值 。 

概率 论 是 许多 机 带 学 习 算 法 的 基础 ， 所 以 这 刻 理解 这 一 主题 就 显得 十 分 重要 。 第 3 草 在 计算 
特征 值 取 茶 个 值 的 概率 时 涉及 了 一 些 概率 知识 , 在 那里 我 们 先 统计 特征 在 数据 集中 取 菏 个 特定 值 
的 次 数 , 然后 除 以 数据 集 的 实例 总 数 , 承 得 到 了 特征 取 该 值 的 概率 。 我 们 将 在 此 基础 上 座 入 讨论 。 

本 章 会 给 出 一 些 使 用 概率 论 进行 分 类 的 方法 。 首 先 从 一 个 最 价 单 的 概率 分 类 天 开始 ,然后 给 
出 一 些 假 设 来 学 习 朴 系 册 叶 斯 分 类 天 。 我 们 称 之 为 “朴素 ”， 有 是 因为 整个 形式 化 过 程 只 做 最 原始 、 
最 简单 的 假设 。 不 必 担 心 ， 你 会 详细 了 解 到 这 些 假设 。 我 们 将 充分 利用 Python 的 文本 人 处理 能 力 将 
文档 切 分 成 词 回 量 ， 然 后 利用 词 回 量 对 文档 进行 分 类 。 我 们 还 将 构建 吃 一 个 分 类 融 ,， 观 察 其 在 真 
实 的 垃圾 邮件 数据 集中 的 过 滤 效 果 ， 必 要 时 还 会 回顾 一 下 条 件 概 广 。 最 后 ,我 们 将 介绍 如 何 从 个 
人 发 布 的 大 量 广告 中 学 习 分 类 磊 ， 并 将 学 习 结 果 转 换 成 人 类 可 理解 的 信息 。 


4.1 基于 贝 叶 斯 决策 理论 的 分 类 方法 


朴素 贝 叶 斯 
优点 : 在 数据 较 少 的 情况 下 仍然 有 效 ， 可 以 处 理 多 类 别 问 题 。 
缺点 : 对 于 输入 数据 的 准备 方式 较为 敏感 。 
适用 数据 类 型 : 标 称 型 数据 。 
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朴素 贝 叶 斯 是 贝 叶 斯 决策 理论 的 一 部 分 , 所 以 讲述 朴素 贝 叶 斯 之 前 有 必要 快速 了 解 一 下 贝 叶 
斯 决 宁 理论 。 
假设 现在 我 们 有 一 个 数据 集 ， 它 由 两 类 数据 组 成 ， 数 据 分 布 如 图 4-1 所 示 。 





图 4-1 ”两 个 参数 已 知 的 概率 分 布 ， 参 数 决 定 了 分 布 的 形状 
假设 有 位 读者 找到 了 描述 图 中 两 类 数据 的 统计 参数 。( 暂且 不 用 管 如 何 找 到 描述 这 类 数据 的 





统计 参数 ， 第 10 章 会 详细 介绍 。) 我 们 现在 用 p1 (x, y) 表示 数据 点 (x,y) 属 于 类 别 1 (图 中 用 圆 点 表 
示 的 类 别 ) 的 概 这， 用 p2 (x,y) 表示 数据 点 (x;y) 属 于 类 别 2 ( 图 中 用 三 角形 表示 的 类 别 ) 的 概率 ， 
那么 对 于 一 个 新 数据 点 (x,y)， 可 以 用 下 面 的 规则 来 判断 它 的 类 别 : 

口 如 采 pl (x,y) > p2(x,y) ， 那 么 类 别 为 1。 

口 如 采 p2 (x,y) > pl1(x,y) ， 那 么 类 别 为 2。 

也 就 是 说 ,我 们 会 选择 高 概率 对 应 的 类 别 。 这 就 是 贝 叶 斯 决策 理论 的 核心 思想 ， 即 选择 具有 
最 高 概率 的 决策 。 回 到 图 4-1， 如 果 该 图 中 的 整个 数据 使 用 6 个 浮 点 数 " 来 表示 ， 并 且 计 算 类 别 概 
率 的 Python 代 码 只 有 两 行 ， 那么 你 会 更 倾 回 于 使 用 下 面 哪 种 方法 来 对 该 数据 点 进行 分 类 ? 

(1) 使 用 第 1 章 的 kNN， 进 行 1000 次 距离 计算 ; 

(2) 使 用 第 2 曹 的 决策 树 ， 分 别 沿 x 轴 、y 轴 划分 数据 ; 

(3) 计算 数据 点 属于 每 个 类 别 的 概率 ， 并 进行 比较 。 

使 用 决策 树 不 会 非常 成 功 ; 而 和 人 简单 的 概率 计算 相 比 ，KNN 的 计算 量 太 大 。 因 此 ， 对 于 上 述 
问题 ， 最 佳 选 择 是 使 用 刚才 提 到 的 概率 比较 方法 。 




















J 整个 数据 由 两 类 不 同 分 布 的 数据 构成 ， 有 可 能 只 需要 6 个 统计 参数 来 描述 。 一 一 译 者 注 
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接 下 来 ,我 们 必须 要 详 述 p1 及 p1 概 率 计算 方法 。 为 了 能 够 计算 p1 与 p2， 有 必要 讨论 一 下 条 件 
概率 。 如 果 你 觉得 自己 已 经 相当 了 解 条 件 概 率 了 ， 那么 可 以 下 接 跳 过 下 一 市 。 








贝 叶 斯 ? 
这 里 使 用 的 概率 解释 属于 贝 叶 斯 概 座 理论 的 范畴 ,该 理论 非常 流行 且 效 果 良 好 。 贝 叶 斯 概 
率 以 18 世 纪 的 一 位 神学 家 托 蕊 斯. 贝 叶 斯 (Thomas Bayes ) 的 名 字 命 名 。 贝 叶 斯 概率 引入 先 验 
知识 和 逻辑 推理 来 处 理 不 确定 命题 。 另 一 种 概率 解释 称 为 频数 概率 ( frequency probability )， 
它 只 从 数据 本 身 获 得 结论 ， 并 不 考虑 逻辑 推理 及 先 验 知识 。 4 


4.2 条 件 概率 

接 下 来 花 点 时 间 讲 讲 概率 与 条 件 概 率 。 如 果 你 对 p (x,y|c,) 符号 很 熟悉 ， 那 么 可 以 跳 过 
本 市 。 

假设 现在 有 一 个 装 了 7 块 石头 的 饶 子 ， 其 中 3 块 是 灰色 的 ，4 块 是 黑色 的 (如 图 4-2 所 示 )。 如 
果 从 铅 子 中 随机 取出 一 块 石头 , 那么 是 灰色 石头 的 可 能 性 是 多 少 ? 由 于 取石 关 有 7 种 可 能 , 其 中 3 


种 为 灰色 ， 所 以 取出 灰色 石头 的 概率 为 37。 那 么 取 到 墨色 石头 的 概率 又 是 多 少 呢 ? 很 显然 ， 和 是 
4/7。 我 们 使 用 P(gray) 来 表示 取 到 灰色 石头 的 概率 ， 其 概率 值 可 以 通过 灰色 石头 数目 除 以 总 的 


石头 数目 来 得 到 。 


图 4-2 ”一 个 包含 7 块 石头 的 集合 ， 石 头 的 颜色 为 灰色 或 者 黑色 。 如 果 随 机 从 中 取 一 块 
石头 ， 那 么 取 到 灰色 石头 的 概率 为 3/7。 类 似 地 ， 取 到 黑色 石头 的 概率 为 4/7 


如 果 这 7 抉 石 头 如 图 4-3 所 示 放 在 两 个 彬 中 ， 那 么 上 述 概率 应 该 如 何 计算 ? 
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A 桶 B 桶 
图 4-3” 落 到 两 个 桶 中 的 7 块 石头 
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要 计算 P(gray) 或 者 P (black) ， 事 先 得 知道 石 涉 所 在 桶 的 信息 会 不 会 改变 结果 ?你 有 可 能 
已 经 想到 计算 从 B 桶 中 取 到 灰色 石头 的 概率 的 办 法 ， 这 就 是 所 谓 的 条 件 概 率 〈conditional 
probability )。 假 定 计算 的 是 从 B 桶 取 到 灰色 石头 的 概率 ， 这 个 概率 可 以 记 作 P(gray|bucketB) ， 
我 们 称 之 为 “在 已 知 石 头 出 目 B 桶 的 条 件 下 , 取出 灰色 石头 的 概率 ”。 不 难得 到 , P (gray |bucketA) 
值 为 2/4，P (gray |bucketB) 的 值 为 1/3 。 

条 件 概 率 的 计算 公式 如 下 所 示 : 

P (gray|pucketB) = P(gray and bucketB)/P (bucketB) 

我 们 来 看 看 上 述 公 陈 是 否 合理 。 首 和 爷 ， 用 B 桶 中 灰色 石头 的 个 数 除 以 两 个 桶 中 总 的 石头 数 ， 
得 到 P(gray and bucketB) = 1/7。 其 次 ， 由 于 B 桶 中 有 3 块 石 头 ， 而 总 石头 数 为 ?7， 于 是 
P (bucketB) 就 等 于 3/7。 于 是 有 P(gray |bucketB) = P(gray and bucketB)/P(bucketB) = 
(1/7) / (3/7) = 1/3。 这 个 公式 虽然 对 于 这 个 简单 例子 来 说 有 点 复杂 ， 但 当 存 在 更 多 特征 时 
是 非常 有 效 的 。 用 代数 方法 计算 条 件 概 紊 时， 该 公式 也 很 有 用 。 

男 一 种 有 效 计算 条 件 概 率 的 方法 称 为 贝 叶 斯 准则 。 贝 叶 斯 准则 告诉 我 们 如 何 交 换 条 件 概率 中 
的 条 件 与 结果 ， 即 如 果 已 知 P(x|c) ， 要 求 P(c|x) ， 那 么 可 以 使 用 下 面 的 计算 方法 : 

_ p(x| Op(o) 
p(c|x) = 本 

我 们 讨论 了 条 件 概率 , 接 下 来 的 问题 是 如 何 将 其 应 用 到 分 类 硕 中 。 下 一 贡 将 讨论 如 何 结合 贝 

叶 斯 决策 理论 使 用 条 件 概 率 。 


4.3 使 用 条 件 概率 来 分 类 


4.1 方 提 到 贝 叶 斯 决策 理论 要 求 计算 两 个 概率 pl1 (x，y) 和 p2 (x，y): 

口 如 果 pl (x，y) > p2(x，Yy) ， 那 么 属于 类 别 1; 

口 如 果 p2 (x，y) > pl1(x，Yy) ， 那 么 属于 类 别 2。 

但 这 两 个 准则 并 不 是 贝 叶 斯 决策 理论 的 所 有 内 容 。 使 用 pl ( ) 和 p2( ) 只 是 为 了 尽 可 能 人 简化 
描述 ， 而 真正 需要 计算 和 比较 的 是 p(c, |x，y) 和 p (c,|x，y)。 这 些 符 号 所 代表 的 具体 意义 是 : 
给 定 某 个 由 x、y 表 示 的 数据 点 ， 那 么 该 数据 点 来 自 类 别 c, 的 概率 是 多 少 ?” 数 据点 来 日 类 别 c, 的 概 
率 又 是 多 少 ? 注意 这 些 概 率 与 刚才 给 出 的 概率 p(x，y|c,) 并 不 一 样 ， 不 过 可 以 使 用 贝 叶 斯 准则 
来 交换 概率 中 条 件 与 结果 。 具 体 地 ， 应 用 贝 叶 斯 准则 得 到 : 

及 6 p(x,y| Cc)p( c,) 


p(x,y) 
使 用 这 些 定义 ， 可 以 定义 贝 叶 斯 分 类 准则 为 : 
口 如 果 P(c |x，y) > P(c,|x，y) ， 那 么 属于 类 别 c 。 
口 如 果 P(c |x，y) < P(c,|x，y)， 那 么 属于 类 别 c,。 
使 用 贝 叶 斯 准则 , 可 以 通过 已 知 的 三 个 概率 值 来 计算 未 知 的 概率 值 。 后 面 就 会 给 出 利用 贝 叶 
斯 准则 来 计算 概率 并 对 数据 进行 分 类 的 代码 。 现 在 介绍 了 一 些 概率 理论 , 你 也 了 解 了 基于 这 些 理 
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论 构 建 分 类 各 的 方法 , 接 下 来 就 要 将 它们 付 诸 实 践 。 下 一 市 会 介绍 一 个 简单 但 功能 强大 的 贝 叶 斯 
分 类 楷 的 应 用 条 例 。 


4.4 使 用 朴素 贝 叶 斯 进行 文档 分 类 


机 融 学 习 的 一 个 重要 应 用 就 是 文档 的 自动 分 类 。 在 文档 分 类 中 ， 整 个 文档 (如 一 封 电 子 邮件 ) 
是 实例 ， 而 电子 邮件 中 的 某 些 元 素 则 构成 特征 。 虽 然 电子 邮件 是 一 种 会 不 断 增加 的 文本 , 但 我 们 同 
样 也 可 以 对 新 闻 报 道 、 用 户 留 言 、 政 府 公 文 等 其 他 任意 类 型 的 文本 进行 分 类 。 我 们 可 以 观察 文档 中 
出 现 的 词 , 并 把 每 个 词 的 出 现 或 者 不 出 现 作为 一 个 特征 , 这 样 得 到 的 特征 数目 就 会 跟 词 汇 表 中 的 词 
目 一 样 多 。 朴 素 册 叶 斯 是 上 贡 介 绍 的 由 时 斯 分 类 天 的 一 个 扩展 ， 是 用 于 文档 分 类 的 稼 用 算法 。 

使 用 每 个 词 作为 特征 并 观察 它们 是 否 出 现 , 这 样 得 到 的 特征 数目 会 有 多 少 呢 ? 针对 的 是 哪 一 
种 人 类 语言 呢 ?7 当然 不 止 一 种 语言 。 据 估计 ， 仅 在 英语 中 ， 单 词 的 总 数 就 有 5$00 000" 之 多 。 为 了 
能 进行 英文 阅读 ， 估 计 需 要 掌握 数 千 单词 。 


























朴素 贝 叶 斯 的 一 般 过 程 
(1) 收集 数据 : 可 以 使 用 任何 方法 。 本 章 使 用 RSS 源 。 
(2) 准备 数据 : 需要 数值 型 或 者 布尔 型 数据 。 
(3) 分 析 数 据 : 有 大 量 特征 时 ， 绘 制 特征 作用 不 大 ， 此 时 使 用 直方 图 效果 更 好 。 
(4) 训练 算法 : 计算 不 同 的 独立 特征 的 条 件 概 率 。 
(5) 测试 算法 : 计算 错误 率 。 
(6) 使 用 算法 : 一 个 常见 的 朴素 贝 叶 斯 应 用 是 文档 分 类 。 可 以 在 任意 的 分 类 场景 中 使 用 朴 
素 贝 叶 斯 分 类 器 ， 不 一 定 非 要 是 文本 。 





假设 词汇 表 中 有 1000 个 单词 。 要 得 到 好 的 概率 分 布 , 就 需要 足够 的 数据 样本 ,假定 样本 数 为 
Ne。 前 面 讲 到 的 约会 网 站 示例 中 有 1000 个 实例 , 手写 识别 示例 中 每 个 数字 有 200 个 样本 ， 而 决策 树 
示例 中 有 24 个 样本 。 其 中 ，24 个 样本 有 点 少 ，200 个 样本 好 一 些 ， 而 1000 个 样本 就 非常 好 了 。 约 
会 网 站 例子 中 有 三 个 特征 。 由 统计 学 知 ， 如 果 每 个 特征 需要 N 个 样本 ， 那 么 对 于 10 个 特征 将 需要 
N" 个 样本 ， 对 于 包含 1000 个 特征 的 词汇 表 将 需要 N™ 个 样本 。 可 以 看 到 ， 所 需要 的 样本 数 会 随 
者 特征 数目 增 大 而 迅速 增长 。 

如 果 特 征 之 间 相 互 独立 , 那么 样本 数 就 可 以 从 N™" 减 少 到 1000xN。 所 谓 独 立 ( independence ) 
指 的 是 统计 意义 上 的 独立 , 即 一 个 特征 或 者 单词 出 现 的 可 能 性 与 它 和 其 他 单词 相 邻 没有 关系 。 举 
个 例子 讲 , 假设 单词 bacon 出 现在 unhealthy 后 面 与 出 现在 delicious 后 面 的 概率 相同 。 当 然 ， 我们 知 
道 这 种 假设 并 不 正确 ,bacon 稼 稼 出 现在 delicious 附 近 ， 而 很 少 出 现在 unhealthy 附 近 ， 这 个 假设 正 
是 朴 系 贝 叶 斯 分 类 各 中 朴素 ( naive ) 一 词 的 含义 。 朴 又 册 叶 斯 分 类 需 中 的 另 一 个 假设 是 ， 每 个 特 

















GD http://hypertextbook.com/facts/2001/JohnnyLing.shtml, 2010 年 10 月 20 日 检索 结果 。 























征 同 等 重要 "。 其 实 这 个 假设 也 有 问题 。 如 果 要 判断 留言 板 的 留言 是 否 得 当 ， 那 么 可 能 不 需要 看 
完 所 有 的 1000 个 单词 , 而 只 需要 看 10 ~ 20 个 特征 就 足以 做 出 判断 了 。 尽管 上 述 假设 存在 一 些小 的 
瑕 狐 ， 但 朴 系 贝 叶 斯 的 实际 效 来 却 很 好 。 

到 目前 为 止 , 你 已 经 了 解 了 足够 的 知识 ， 可 以 开始 编写 代码 了 。 如 来 还 不 清楚 ,那么 了 解 代 
码 的 实际 效果 会 有 助 于 理解 。 下 一 节 将 使 用 Python 来 实现 朴素 贝 叶 斯 分 类 需 ， 实 现 中 会 涉及 利用 
Python 进行 文本 分 类 的 所 有 相关 内 容 。 


4.5 使 用 Python 进行 文本 分 类 


要 从 文本 中 获取 特征 ， 需 要 先 拆 分 文本 。 具 体 如 何 做 呢 ? 这 里 的 特征 是 来 自 文 本 的 词 条 
( token ), 一 个 词 条 是 字符 的 任意 组 合 。 可 以 把 词 条 想象 为 单词 , 也 可 以 使 用 非 单 词 词 条 , 如 URL、 
IP 地 址 或 者 任意 其 他 字符 串 。 然 后 将 每 一 个 文本 片段 表示 为 一 个 词 条 癌 量 ， 其 中 值 为 1 表示 词 条 
出 现在 文档 中 ，0 表 示 词 条 未 出 现 。 

以 在 线 社区 的 留言 板 为 例 。 为 了 不 影响 社区 的 发 展 , 我 们 要 屏蔽 侮辱 性 的 言论 , 所 以 要 构建 一 
个 快速 过 滤 需 ,如 果 某 条 留言 使 用 了 负面 或 者 侮辱 性 的 语言 , 那么 就 将 该 留言 标识 为 内 容 不 当 。 过 
滤 这 类 内 容 是 一 个 很 常见 的 需求 。 对 此 问题 建立 两 个 类 别 : 侮辱 类 和 非 侮辱 类 , 使 用 1 和 0 分 别 表 示 。 

接 下 来 首先 给 出 将 文本 转换 为 数字 向 量 的 过 程 ， 然 后 介绍 如 何 基于 这 些 向 量 来 计算 条 件 概率 ， 
并 在 此 基础 上 构建 分 类 器 ， 最 后 还 要 介绍 一 些 利用 Python 实 现 朴素 贝 叶 斯 过 程 中 需要 考虑 的 问题 。 


4.5.1 准备 数据 : 从 文本 中 构建 词 向 量 


我 们 将 把 文本 看 成 单词 向 量 或 者 词 条 问 量 , 也 就 是 说 将 句子 转换 为 向 量 。 考虑 出 现在 所 有 文 
档 中 的 所 有 单词 , 再 决定 将 哪些 词 纳入 词汇 表 或 者 说 所 要 的 词汇 集合 , 然后 必须 要 将 每 一 篇 文档 
转换 为 词汇 表 上 的 癌 量 。 接 下 来 我 们 正式 开始 。 打 开 文 本 编辑 各， 创建 一 个 叫 bayes.py 的 新 文件 ， 
然后 将 下 面 的 程序 清单 涩 加 到 文件 中 。 


程序 清单 4-1 词 表 到 癌 量 的 转换 函数 


def loadDataset ( ) : 

























































































postingList=[['my', 'dog', 'has', 'flea', \ 
'problems', 'help', 'please'|], 
['maybe', 'not', 'take', 'him', \ 
'to', 'dog', 'park', 'stupid'], 
['my', 'dalmation', 'is', 's80', 'cute', \ 
1'IT', 'love', 'him'], 
['stop', 'posting', 'stupid', 'worthless', 'garbage'l], 
['mr', 'licks', 'ate', 'my', 'steak', 'how',\ 
'to', 'stop', 'him'], 


J 朴素 贝 叶 斯 分 类 融通 常 有 两 种 实现 方式 : 一 种 基于 贝 努 利 模型 实现 ,一 种 基于 多 项 式 模型 实现 。 这 里 采用 前 一 种 
实现 方式 。 该 实现 方式 中 并 不 考虑 词 在 文档 中 出 现 的 次 数 ， 只 考虑 出 不 出 现 ， 因 此 在 这 个 意义 上 相当 于 假设 词 是 
等 权重 的 。4.5.4 习 给 出 的 实际 上 是 多 项 式 模 型 ， 它 考虑 词 在 文档 中 的 出 现 次 数 。 一 一 详 者 注 
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['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']] 
classVec = [0,1,0,1,0,1] #1 代表 侮 每 性 文字 ，0 代 表 正 常言 论 
return postingList,classVec 
def createVocabList (dataSet): -9 创建 一 个 空 集 
vocabset = set([]) 
for document in dataSet: 
vocabSet = vocabSet | set (document) 
return list (vocabSset) 8。 创建 两 个 集合 的 并 集 
def setOfWords2Vec (vocabList, inputsSset): 
returnVec = [0]*len (vocabList) 
for word in inputSet : ©@ 创建 一 个 其 中 所 含 元 素 都 为 0 的 向 量 
if word in vocabList: 
returnVec[lvocabList.index(word)] = 1 


else: print "the word: %s is not in my Vocabulary!'" % word 
return returnVec 


第 一 个 函数 1o0adDataSet () 创 建 了 一 些 实验 样本 。 该 吨 数 返回 的 第 一 个 变量 是 进行 词 条 切 
分 后 的 文档 集合 , 这 些 文档 来 目 斑 点 犬 爱 好 者 留言 板 。 这 些 留 言 文本 被 切 分 成 一 系列 的 词 条 集合 ， 
标点 符号 从 文本 中 去 择 ， 后 面 会 探讨 文本 处 理 的 细节 。1loadqpataset ( ) 函数 返回 的 第 二 个 变量 
是 一 个 类 别 标签 的 集合 。 这 里 有 两 类 ， 侮 辱 性 和 非 侮 辱 性 。 这 些 文本 的 类 别 由 人 工 标注 ， 这 些 标 
注 信息 用 于 训练 程序 以 便 上 自动 检测 侮辱 性 留言 。 

下 一 个 函数 createVocabList () 会 创建 一 个 包含 在 所 有 文档 中 出 现 的 不 重复 词 的 列表 ， 为 
此 使 用 了 Python 的 set 数 据 类 型 。 将 词 条 列表 输 给 set 构 造 曙 数 ，set 就 会 返回 一 个 不 重复 词 表 。 
首先 ， 创 建 一 个 空 集合 @， 人 然后 将 每 篇 文档 返回 的 新 词 集合 添加 到 该 集合 中 人 @。 操 作 符 | 用 于 求 
两 个 集合 的 并 集 ， 这 也 是 一 个 按 位 或 (oR ) 操作 符 (参见 附录 C )。 在 数学 符号 表示 上 ， 按 位 或 
操作 与 集合 求 并 操作 使 用 相同 记号 。 

获得 词汇 表 后 , 便 可 以 使 用 汕 数 setofwords2Vec () , 该 困 数 的 输入 参数 为 词汇 表 及 某 个 文 
档 ， 输 出 的 是 文档 回 量 ， 回 量 的 每 一 元 素 为 1 或 0， 分 别 表示 词汇 表 中 的 单词 在 输入 文档 中 是 否 出 
现 。 函 数 首先 创 建 一 个 和 词汇 表 等 长 的 向 量 ， 并 将 其 元 素 都 设置 为 0 人 @。 接 着 ,遍历 文档 中 的 所 
有 单词 ， 如 条 出 现 了 词汇 表 中 的 单词 ， 则 将 输出 的 文档 回 量 中 的 对 应 值 设 为 1。 一 切 都 顺利 的 话 ， 
就 不 需要 检查 某 个 词 是 否 还 在 vocabList 中 ， 后 边 可 能 会 用 到 这 一 操作 。 

现在 看 一 下 这 些 函 数 的 执行 效果 ， 保 存 payes .py 文件 ， 然 后 在 Python 提 示 符 下 输入 : 

2 WE = bayes.loadDataSset ( ) 


>>> myVocabList = bayes.createVocabList (listOPosts) 
>>> myVocabList 






























































['cute', 'love', 'help', 'garbage', 'quit', 'I', 'problems', 'is', 'park', 
'stop', 'flea', 'dalmation', 'licks', 'food', 'not', 'him', 'buying', 
'posting', 'has', 'worthless', 'ate', 'to', 'maybe', 'please', 'dog', 
'how', 'stupid', 'so', 'take', 'mr', 'steak', 'my'] 


检查 上 述 词 表 ， 就 会 发 现 这 里 不 会 出 现 重 复 的 单词 。 目 前 该 词 表 还 没有 排序 , 需要 的 话 ， 稍 
后 可 以 对 其 排序 。 
下 面 看 一 下 因数 setofwords2Vec () 的 运行 效果 : 
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>>> bayes.setOfWords2Vec (myVocabList, listOPosts{[0]) 

[0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 
0, 0, 0, 0, 0, 0, 1] 

>>> bayes.setOfWords2Vec (myVocabList, listOPosts[3]) 

[0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 
0, 1, 0, 0, 0, 0, 0] 


该 函数 使 用 词汇 表 或 者 想 要 检查 的 所 有 单词 作为 输入 ， 然 后 为 其 中 每 一 个 单词 构建 一 个 特 
征 。 一旦 给 定 一 篇 文档 ( 斑点 犬 网 站 上 的 一 条 留言 )， 该 文档 就 会 被 转换 为 词 问 量 。 接 下 来 检查 
一 下 拯 数 的 有 效 性 。myvVocabList 中 索引 为 2 的 元 素 是 什么 单词 ?应 该 是 单词 help。 该 单词 在 第 
一 篇 文档 中 出 现 ， 现 在 检查 一 下 看 看 它 是 否 出 现在 第 四 篇 文档 中 。 


4.5.2 ”训练 算法 : 从 词 向 量 计算 概率 


前 面 介 绍 了 如 何 将 一 组 单词 转换 为 一 组 数字 , 接 下 来 看 看 如 何 使 用 这 些 数字 计算 概率 。 现 在 
已 经 知道 一 个 词 是 否 出 现在 一 篇 文档 中 ， 也 知道 该 文档 所 属 的 类 别 。 还 记得 3.2 节 提 到 的 贝 叶 斯 
准则 ? 我 们 重 写 贝 叶 斯 准则 ， 将 之 前 的 x、y 蔡 换 为 w。 粗 体 w 表 示 这 是 一 个 癌 量 ， 即 它 由 多 个 数 
值 组 成 。 在 这 个 例子 中 ， 数 值 个 数 与 词汇 表 中 的 词 个 数 相 同 。 

p(w |c;)p(c;) 

p(w) 

我 们 将 使 用 上 述 公 式 , 对 每 个 类 计算 该 值 ， 然后 比较 这 两 个 概率 值 的 大 小 。 如 何 计算 呢 ? 首 
先 可 以 通过 类 别 i (侮辱 性 留言 或 非 侮辱 性 留言 ) 中 文档 数 除 以 总 的 文档 数 来 计算 概率 p (c,) 。 接 
下 来 计算 p (w|c,) ， 这 里 就 要 用 到 朴 系 贝 叶 斯 假设 。 如 果 将 w 展 开 为 一 个 个 独立 特征 ， 那 么 就 可 
以 将 上 述 概率 写作 p (wo,w,w,. .w|c,)。 这 里 假设 所 有 词 都 互相 独立 , 该 假设 也 称 作 条 件 独 立 性 
假设 , 它 意味 者 可 以 使 用 p(w,|c,)p(w,|c)p(w,|c,) ...p(w|c,) 来 计算 上 述 概 这 ， 这 就 极 大 地 
简化 了 计算 的 过 程 。 

该 函数 的 伪 代 码 如 下 : 

计算 每 个 类 别 中 的 文档 数目 

对 每 篇 训练 文档 : 

对 每 个 类 别 : 
如 果 词 条 出 现在 文档 中 一 增加 该 词 条 的 计数 值 
增加 所 有 词 条 的 计数 值 
对 每 个 类 别 : 
对 每 个 词 条 : 
将 该 词 条 的 数目 除 以 总 词 条 数目 得 到 条 件 概率 
返回 每 个 类 别 的 条 件 概率 


我 们 利用 下 面 的 代码 来 实现 上 述 伪 码 。 打 开 文 本 编辑 占 ， 将 这 些 代 码 添 加 到 bayes .py 文件 
中 。 该 函数 使 用 了 NumPy 的 一 些 孙 数 ， 故 应 确保 将 from numpy import * 语 句 添 加 到 bayes .py 
文件 的 最 前 面 。 

















plc; |w)= 
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程序 清单 4-2 朴 系 贝 叶 斯 分 类 帮 训 练 阴 数 


def trainNBO0O (trainMatrix,trainCategory): 


numTrainDocs = len(trainMatrix) 

numWords = len(trainMatrix{[0]) 

pAbusive = sum(trainCategory) /float (numTrainDocs) 

PONum = zeros (numWords); plNum = zeros (numWords) , 怖 加 始 化 本 
poODenom = 0.0; plDenom = 0.0 


for i in range (numTrainDocs): 
if trainCategoryl[i] == 


plNum += trainMatrix [i] | 局 由利 


plDenom += Sum (txzalnMatLz1IX[I] ) 
else: 

PONum += trainMatrix[i] 

poODenom += sum (trainMatrix[i]) 


plVect = plNum/plDenom #change to log () 
pOVect = pONum/pODenom #change to log() 0 
return pOVect,plVect,pAbusive 
代码 函数 中 的 输入 参数 为 文档 矩阵 trainMatrix， 以 及 由 每 篇 文档 类 别 标签 所 构成 的 向 量 
trainCategory。 自 完 , 计算 文档 属于 侮辱 性 文档 ( class=1 ) 的 概率 ， 即 P(1) 。 因 为 这 是 一 个 二 
类 分 类 问题 ， 所 以 可 以 通过 1-P (1) 得 到 P(0)。 对 于 多 于 两 类 的 分 类 问题 ， 则 需要 对 代码 稍 加 修改 。 
计算 p (w, |c,) 和 p (w, | c,) ， 需 要 初始 化 程序 中 的 分 子 变 量 和 分 母 变 量 @@。 由 于 w 中 元 素 如 此 
众多 , 因此 可 以 使 用 NumPy 数 组 快速 计算 这 些 值 。 上 述 程序 中 的 分 母 变 量 是 一 个 元 素 个 数 等 于 词 
汇 表 大 小 的 NumPy 数 组 。 在 for 循 坏 中 ,要 遍历 训练 集 trainMatrix 中 的 所 有 文档 。 一旦 某 个 词 
语 (侮辱 性 或 正常 词语 ) 在 某 一 文档 中 出 现 ， 则 该 词 对 应 的 个 数 ( plNum 或 者 p0Num ) 就 加 1， 
而 且 在 所 有 的 文档 中 ， 该 文档 的 总 词 数 也 相应 加 1@。 对 于 两 个 类 别 都 要 进行 同样 的 计算 处 理 。 
最 后 ， 对 每 个 元 素 除 以 该 类 别 中 的 总 词 数 合 。 利用 NumPy 可 以 很 好 实现 , 用 一 个 数组 除 以 浮 
点 数 即 可 ， 硅 使 用 常规 的 Python 列 表 则 难以 完成 这 种 任务 ， 读 者 可 以 自己 尝 斌 一下。 最后， 也 数 
会 返回 两 个 向 量 和 一 个 概率 。 
接 下 来 试验 一 下 。 将 程序 清单 4-2 中 的 代码 添加 到 bayes.py 文 件 中 ， 在 Python 提示 答 下 输入 : 


>>> from numpy import * 

>>> reload (bayes) 

<module 'bayes' from 'bayes.py'> 

>>> listOPosts,listClasses = bayes.1loadDataSset () 


该 语句 从 预先 加 载 值 中 调和 人 数据 。 
>>> myVocabList = bayes.createVocabList (listOPosts) 
至 此 我 们 构建 了 一 个 包含 所 有 词 的 列表 myVocabList。 


>>> trainMat=[] 
>>> for postinDoc in listOPosts: 
trainMat .append (bayes .setOfWords2Vec (myVocabList, postinDoc)) 





























该 for 循 环 使 用 词 回 量 来 填充 trainMat 列 表 。 下 面 给 出 属于 侮辱 性 文档 的 概率 以 及 两 个 类 别 的 
概率 问 量 。 


>>> P0V,P1IV,PAb=bayes .tralnNBO (trainMat,1listClasses) 


接 下 来 看 这 些 变 量 的 内 部 值 : 


>>> PAb 
0 .5 
vl, -er SS = » 、 SB 
这 就 是 任意 文档 属于 侮辱 性 文档 的 概率 。 
>>> DOV 
array([ 0.04166667, 0.04166667, 0.04166667, 0. 0 
0.04166667, 0. ; 0.04166667, 0. ; 0.04166667, 
0.04166667, 0.125 ] ) 
>>> DIV 
array([ 0. i 0 ;， 0. ; 0.05263158, 0.05263158, 
0. ; 0.15789474, 0. ; 0.05263158, 0. 
0 0 ] ) 


首先 ,我们 发 现 文 档 属于 侮辱 类 的 概率 pAb 为 0.5， 该 值 是 正确 的 。 接 下 来 ,看 一 看 在 给 定 文 
档 类 别 条 件 下 词汇 表 中 单词 的 出 现 概 率 , 看 看 是 否 正确 。 词汇 表 中 的 第 一 个 词 是 cute, 其 在 类 别 0 
中 出 现 1 次 ， 而 在 类 别 1 中 从 未 出 现 。 对 应 的 条 件 概 率 分 别 为 0.041 666 67 与 0.0。 该 计算 是 正确 的 。 
我 们 找 找 所 有 概率 中 的 最 大 值 ， 该 值 出 现在 P (1) 数 组 第 26 个 下 标 位 置 ， 大 小 为 0.157 894 74。 在 
myVocabList 的 第 26 个 下 标 位 置 上 可 以 查 到 该 单词 是 stupid。 这 意味 着 stupid 是 最 能 表征 类 别 1( 侮 
辱 性 文档 类 ) 的 单词 。 

使 用 该 困 数 进行 分 类 之 前 ， 还 需 解决 函数 中 的 一 些 缺 陷 。 




















4.5.3 测试 算法 : 根据 现实 情况 修改 分 类 器 


利用 贝 叶 斯 分 类 屁 对 文档 进行 分 类 时 , 要 计算 多 个 概率 的 乘积 以 获得 文档 属于 某 个 类 别 的 概 
率 ， 即 计算 p (w, |1)p(w|1)p(w,|1)。 如 果 其 中 一 个 概率 值 为 0, 那么 最 后 的 乘积 也 为 0。 为 降低 
这 种 影响 ， 可 以 将 所 有 词 的 出 现 数 初 始 化 为 1， 并 将 分 母 初 始 化 为 2。 

在 文本 编辑 器 中 打开 bayes.py 文 件 ， 并 将 trainNB0 () 的 第 4 行 和 第 5 行 修改 为 : 


PONum = ones (numWords); PINum = ones (numWords) 
poODenom = 2.0; plDenom = 2.0 


另 一 个 遇 到 的 问题 是 下 湾 出 ， 这 是 由 于 太 多 很 小 的 数 相 乘 造成 的 。 当 计算 乘积 
p(w,|c,)p(w |c)p(w,|c,)...p(w,|c,) 时 ,由 于 大 部 分 因子 都 非常 小 ， 所 以 程序 会 下 汶 出 或 者 
得 到 不 正确 的 答案 。( 读者 可 以 用 Python 洋 试 相 习 许 多 很 小 的 数 ， 最 后 四 舍 五 入 后 会 得 到 0。) 一 
种 解决 办 法 是 对 乘积 取 目 然 对 数 。 在 代数 中 有 1ln(a*b) = ln(a)+ln(b) ， 于 是 通过 求 对 数 可 以 
避 包 下 淤 出 或 者 浮 点 数 舍 入 导 人 致 的 错误 。 同 时 ,采用 目 然 对 数 进行 处 理 不 会 有 任何 损失 。 图 4-4 
给 出 函数 £ (x) 与 1n(f (x) ) 的 曲线 。 检 查 这 两 条 曲线 ， 就 会 发 现 它 们 在 相同 区 域内 同时 增加 或 者 
减少 ， 并 且 在 相同 点 上 取 到 极 值 。 它 们 的 取 值 虽然 不 同 ， 但 不 影 啊 最 终 绪 果 。 通 过 修改 return 
前 的 两 行 代码 ， 将 上 述 做 法 用 到 分 类 需 中 : 


























plVect = log (plNum/plDenom) 
pOVect = log (pONum/p0ODenom) 


入 
洪 
Y 
并 
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1.0 
0.8 


0.6 


f(x) 


0.4 
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So 0.1 QO:2 0.3 0.4 0.5 
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=0.5 
=].0 
—1.5 


In(f(X)) 


一 2.0 


人 


“3 0.1 0.2 0.3 0.4 0.5 


图 4-4” 国 数 E(x) 与 In (f(x) ) 会 一 块 增 大 。 这 表明 想 求 函 数 的 最 大 值 时 ， 可 以 使 用 该 
王 数 的 自然 对 数 来 蔡 换 原 晒 数 进行 求解 


现在 已 经 准备 好 构建 完整 的 分 类 带 了 。 当 使 用 NumPy 回 量 处 理 功 能 时 , 这 一 切 变 得 十 分 简单 。 
打开 文本 编辑 需 ， 将 下 面 的 代码 添加 到 bayes.py 中 : 


程序 清单 4-3 ” 朴 系 贝 叶 斯 分 类 孙 数 


def classifyNB (vec2Classify, pOVec, plVec, pClass1l): 








pl = sum(vec2Classify * plVec) + log (pClass1) 
p0 = sum(vec2Classify * pOVec) + log(1.0 - pClass1) 0 元 素 相 乘 
if pl > po0: 
return 1 
else: 
return 0 


def testingNB(): 
listOPosts,1listClasses = loadDataset () 
myVocabList = createVocabList (listOPosts) 
trainMat=[] 
for postinDoc in listOPosts: 


trainMat .append (setOfWords2Vec (myVocabList, postinDoc)) 
POV,plV,pAb = trainNB0O (array (trainMat),array (listClasses)) 


testEntry = ['love', 'my', 'dalmation'|] 

thisDoc = array (setOofWords2Vec (myVocabList, testEntry)) 

print testEntry,'classified as: ',classifyNB (thisDoc,pOV,pPp1V,PpADb) 
testEntry = ['stupid', 'garbage'] 

thisDoc = array (setOofWords2Vec (myVocabList, testEntry)) 

print testEntry,'classified as: ',classifyNB (thisDoc,pOV,pP1V,PpADb) 


程序 清单 4-3 的 代码 有 4 个 输入 : 要 分 类 的 器 量 vec2classify 以 及 使 用 国 数 trainNB0 ( ) 计 
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算得 到 的 三 个 概率 。 使 用 NumPy 的 数组 来 计算 两 个 向 量 相 乘 的 结果 @@. 这 里 的 相 乘 是 指 对 应 元 素 
相 乘 ， 即 和 抑 将 两 个 回 量 中 的 第 1 个 元 素 相 乘 ， 然 后 将 第 2 个 元 系 相 乘 ， 以 此 类 推 。 接 下 来 将 词汇 表 
中 所 有 词 的 对 应 值 相 加 ,然后 将 该 值 加 到 类 别 的 对 数 概 率 上 。 最 后 ， 比 较 类 别 的 概率 返回 大 概率 
对 应 的 类 别 标签 。 这 一 切 不 是 很 难 ， 对 吧 ? 

代码 的 第 二 个 函数 是 一 个 便利 函数 ( convenience function ), 该 阴 数 封 污 所 有 操作 ， 以 市 省 输 
和 人 4.3.1 廊 中 代码 的 时 间 。 

下 面 来 看 看 实际 结果。 将 程序 清单 4-3 中 的 代码 添加 之 后 ， 在 Python 提示 符 下 输入 : 

>>> reload (bayes) 

<module 'bayes' from 'bayes.pyc'> 

>>>bayes .testingNB () 


['love', 'my', 'dalmation'] classified as: 0 
['stupid', 'garbage'] classified as: 1 


对 文本 做 一 些 修改 , 看 看 分 类 休会 输出 什么 结果 。 这 个 例子 非常 徊 单 ,但 是 它 展示 了 朴 系 贝 
叶 斯 分 类 融 的 工作 原理 。 接 下 来 ， 我 们 会 对 代码 做 些 修 改 ， 使 分 类 天 工作 得 更 好 。 


4.5.4 准备 数据 : 文档 词 袋 模型 


目前 为 止 , 我 们 将 每 个 词 的 出 现 与 否 作 为 一 个 特征 ， 这 可 以 被 描述 为 词 集 模型 ( set-of-words 
model )。 如 果 一 个 词 在 文档 中 出 现 不 止 一 次 , 这 可 能 意味 者 包含 该 词 是 否 出 现在 文档 中 所 不 能 
达 的 某 种 信息 ， 这 种 方法 被 称 为 词 袋 模型 ( bag-of-words model )。 在 词 袋 中 ， 每 个 单词 可 以 出 现 
多 次 ， 而 在 词 集 中 ， 每 个 词 只 能 出 现 一 次 。 为 适应 词 袋 模 型 ， 需 要 对 图 数 setofWorads2Vec () 
稍 加 修改 ， 修 改 后 的 函数 称 为 bpagofWwords2Vec () 。 

下 面 的 程序 清单 给 出 了 基于 词 袋 模型 的 朴 索 贝 叶 斯 代码 。 它 与 图 数 setofwordqs2Vec () 几乎 
完全 相同 ， 唯 一 不 同 的 是 每 当 遇 到 一 个 单词 时 ， 它 会 增加 词 癌 量 中 的 对 应 仁 ， 而 不 只 是 将 对 应 的 
数值 设 为 1。 


程序 清单 4-4 ”朴素 贝 叶 斯 间 袋 模型 
def bagqofWoraqs2VecMN (vocabList, inputSet): 
returnVec = [0]*len (vocabList) 
for word in inputSset: 
if word in vocabList: 
returnVec[vocabList.index(word)] += 1 
return returnVec 


现在 分 类 带 已 经 构建 好 了 ， 下 面 我 们 将 利用 该 分 类 带 来 过 滤 垃 圾 邮件 。 


4.6 示例 : 使 用 朴素 贝 叶 斯 过 滤 垃 圾 邮件 


在 前 面 那 个 简单 的 例子 中 ,我 们 引入 了 字符 驯 列 表 。 使 用 朴素 册 叶 斯 解决 一 些 现实 生活 中 
的 问题 时 ,需要 先 从 文本 内 容 得 到 字符 串 列 表 ， 然 后 生成 词 向 量 。 下 面 这 个 例子 中 ， 我 们 将 了 
解 朴素 贝 叶 斯 的 一 个 最 著名 的 应 用 : 电子 邮件 垃圾 过 小。 前 先 看 一 下 如 何 使 用 通用 框架 来 解决 


该 问题 。 
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示例 : 使 用 朴素 贝 叶 斯 对 电子 邮件 进行 分 类 


(1) 收集 数据 : 提供 文本 文件 。 

(2) 准备 数据 : 将 文本 文件 解析 成 词 条 向 量 。 

(3) 分 析 数 据 : 检查 词 条 确保 解析 的 正确 性 。 

(4) 训练 算法 : 使 用 我 们 之 前 建立 的 trainNB0 () 函数 。 

(5) 测试 算法 : 使 用 classifyNB()， 并 且 构 建 一 个 新 的 测试 函数 来 计算 文档 集 的 错误 率 。 
(6) 使 用 算法 : 构建 一 个 完整 的 程序 对 一 组 文档 进行 分 类 ， 将 错 分 的 文档 输出 到 屏幕 上 。 


下 面 首先 给 出 将 文本 解析 为 词 条 的 代码 。 然 后 将 该 代码 和 前 面 的 
该 函数 在 测试 分 类 右 的 同时 会 给 出 错误 率 。 


准备 数据 : 切 分 文本 


前 一 节 介 绍 了 如 何 创建 词 癌 量 , 并 基于 这 些 词 回 量 进行 朴素 贝 叶 斯 分 类 的 过 程 。 前 一 节 中 的 
词 向 量 是 预先 给 定 的 ， 下 面 介 绍 如 何 从 文本 文档 中 构建 自己 的 词 列 表 。 

对 于 一 个 文本 字符 串 ， 可 以 使 用 Python 的 string.split() 方 法 将 其 切 分 。 下 面 看 看 实际 的 
运行 效果 。 在 Python 提示 符 下 输入 : 


>>> mySent='This book is the best book on Python or M.L. 

> EYyES UPON.' 

>>> mySent .split() 

['This', 'book', 
1IT', 'have', 


分 类 代码 集成 为 一 个 函数 ， 











4.6.1 














I have ever laid 


'is', 'the', 


!'laid', 


1!best', 
'eyes', 


!book', 
' Upon.'] 


可 以 看 到 , 切 分 的 结 来 不 错 , 但 是 标点 符号 也 人 被 当成 了 词 的 一 部 分 。 可 以 使 用 正则 表示 式 来 切 分 


'on', 'Python', 'or', 'M.L.', 


'ever', 











句子 ， 其 中 分 隔 符 是 除 单词 、 数 字 外 的 任意 字符 串 。 
>>> import re 
>>> regEx = re.compile('\\W*') 
>>> listOfTokens = regEx.split (mySent) 
>>> listOfTokens 
['This', 'book', 'is', 'the', 'best', 'book', 'on', 'Python', 'or', 'M', 
'L', '', 'I', 'have', 'ever', 'laid', 'eyes', 'upon', ''| 
现在 得 到 了 一 系列 词组 成 的 词 表 ,但 是 里 面 的 空 学 符 串 需 要 去 挥 。 可 以 计算 每 个 字符 串 的 长 度 ， 


只 返回 长 度 大 于 0 的 字符 串 。 
[tok for tok in listOfTokens if len(tok) > 0] 
最 后 ， 我 们 发 现 句 子 中 的 第 一 个 单词 是 大 写 的 。 如 果 目 的 是 句子 查找 ， 那 么 这 个 特点 会 很 有 用 。 
但 这 里 的 文本 只 看 成 词 袋 ， 所 以 我 们 希望 所 有 词 的 形式 都 是 统一 的 ， 不 论 它们 出 现在 句子 中 间 、 
结尾 还 是 开头 。 

Python 中 有 一 些 内 级 的 方法 , 可 以 将 字符 串 全 部 转换 成 小 号 ( .lower () ) 或 者 大 写 ( .upper () )， 
借助 这 些 方法 可 以 达到 目的 。 于 是 ， 可 以 进行 如 下 处 理 : 


>>> [tok.lower () 
['this', 'book', 


之 之 之 








for tok in listOfTokens if len (七 OK) 
1ijs', 'the', 'best', 'book', 


> 0] 


'on', 'Ppython', 'or', 'm', 
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1]', 'i', 'have', 'ever', 'laid', 'eyes', 'upon'] 
现在 来 看 数据 集中 一 封 完整 的 电子 邮件 的 实际 处 理 结 果 。 该 数据 集 放 在 email 文 件 夹 中 ， 该 
文件 夹 义 包含 两 个 子 文件 夹 ,分别 是 spam 与 ham。 


>>> emailText = open('email/ham/6.txt').read!() 
>>> listOfTokens=regEx.split (emailText) 


文件 夹 ham 下 的 6.txt 文 件 非常 长 ， 这 是 某 公 司 告知 我 他 们 不 再 进行 某 些 文 持 的 一 封 邮 件 。 需 
要 注意 的 是 ， 由 于 是 URL: answerpy?hl=en&answer=174623 的 一 部 分 ， 因 而 会 出 现 en 和 py 这 样 的 
单词 。 当 对 URL 进 行 切 分 时 ,会 得 到 很 多 的 词 。 我 们 是 想 去 挥 这 些 单 词 ， 因 此 在 实现 时 会 过 滤 挥 
长 度 小 于 3 的 字符 串 。 本 例 使 用 一 个 通用 的 文本 解析 规则 来 实现 这 一 点 。 在 实际 的 解析 程序 中 ， 
要 用 更 高 级 的 过 滤 带 来 对 诸如 HTML 和 URI 的 对 和 象 进 行 处 理 。 目 前 ,一 个 URI 最 终 会 解析 成 词汇 
表 中 的 单词 ， 比 如 www.whitehouse.gov 会 被 解析 为 三 个 单词 。 文 本 解析 可 能 是 一 个 相当 复杂 的 过 
程 。 接 下 来 将 构建 一 个 极其 简单 的 函数 ， 你 可 以 根据 情况 自行 修改 。 


4.6.2 测试 算法 : 使 用 朴素 贝 叶 斯 进行 交叉 验证 


下 面 将 文本 解析 大 集 成 到 一 个 完整 分 类 磊 中 。 打开 文本 编辑 侣 , 将 下 面 程 序 清单 中 的 代码 添 
加 到 bayes.py 文 件 中 。 


程序 清单 4-5 ”文件 解析 及 完整 的 垃圾 邮件 测试 函数 
def textpParse (bigString): 
import re 
listOfTokens = re.split (r'\W*', bigsString) 
return [tok.lower() for tok in listOofTokens if len(tok) > 2] 






































def spamTest () : 


docList=[]; classList = []; fullText =[] 
for i in range(1,26): 
wordList = textParse (open('email/spam/%$d.txt' % i).read()) 


docList.append (wordList) 
fullText .extend (wordList) 
classList.append (1) 


wordList = textParse (open('email/ham/%d.txt' $ i).read()) 
docList.append (wordList) 
fullText .extend (wordList) 导入 并 解析 文本 文件 
classList.append(o) 

vocabList = createVocabList (docList) 


trainingSet = range (50); testSet=[] 
for i in range (10): 
randIindex = int (random.uniform(0,1len (trainingSset))) 
testSet.append (trainingSet [randIindex]) 
del (trainingSet [randIindexl]) 
trainMat=[]; trainClasses = [【] 
for docIindex in trainingSset: 
trainMat .append (setOofWords2Vec(vocabList, docList[docIindex|])) 
trainClasses.append (classList [docIindex]) 
POV,pPlV,pSpam = trainNB0O (array (trainMat) ,array (trainClasses)) 
errorCount = 0 


随机 构建 训练 集 
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for docIndex in testSet: 
wordVector = setOfWords2Vec (vocabList, docList [docIndexl]) 
分 类 


if classifyNB (array (wordVector) ,pOV,pl1V,pSpam) != J 
对 测试 集 
classList [docIndexl]: 
errorCount += 1 
print 'the error rate is: ',float (errorCount)/len(testSet) 


第 一 个 函数 textParse () 接 受 一 个 大 字符 串 并 将 其 解析 为 学 符 串 列表 。 该 孔 数 去 挥 少 于 两 
个 字符 的 字符 串 ， 并 将 所 有 字符 串 转 换 为 小 号。 你 可 以 在 函数 中 添加 更 多 的 解析 操作 , 但 是 目前 
的 实现 对 于 我 们 的 应 用 足够 了 。 

第 二 个 子 数 spamTest () 对 贝 叶 斯 垃圾 邮件 分 类 需 进 行 目 动 化 处 理 。 导 入 文件 光 spam 与 ham 
下 的 文本 文件 ， 并 将 它们 解析 为 词 列表 人 @@, 接 下 来 构建 一 个 测试 集 与 一 个 训练 集 ， 两 个 集合 中 的 
邮件 都 是 随机 选 出 的 。 本 例 中 共有 50 封 电子 邮件 ,并 不 是 很 多 ,其 中 的 10 封 电子 邮件 被 随机 选择 
为 测试 集 。 分 类 各 所 需要 的 概率 计算 只 利用 训练 集中 的 文档 来 完成 。Python 变 量 trainingSet 
是 一 个 整数 列表 ， 其 中 的 值 从 0 到 49。 接 下 来 ， 随 机 选择 其 中 10 个 文件 @。 选 择 出 的 数字 所 对 应 
的 文档 被 添加 到 测试 集 ， 同 时 也 将 其 从 训练 集中 日 除 。 这 种 随机 选择 数据 的 一 部 分 作为 训练 集 ， 
而 剩余 部 分 作为 测试 集 的 过 程 称 为 留存 交叉 验证 (hold-out cross validation )。 假 定 现在 只 完成 了 
一 次 迭代 ， 那 么 为 了 更 精确 地 估计 分 类 舌 的 错误 率 ， 就 应 该 进行 多 次 迭代 后 求 出 平均 错误 率 。 

接 下 来 的 for 循 环 人 帝 历 训练 集 的 所 有 文档 ,对 每 封 邮件 基于 词汇 表 并 使 用 setofWords2Vec () 
国 数 来 构建 词 回 量 。 这 些 词 在 traindNB0 () 图 数 中 用 于 计算 分 类 所 需 的 概率 。 然 后 遍历 测试 集 ， 
对 其 中 每 封 电子 邮 件 进行 分 类 合 。 如 果 邮 件 分 类 错误 ， 则 错误 数 加 1， 最 后 给 出 总 的 错误 百分比 。 

下 面 对 上 述 过 程 进行 尝试 。 输 入 程序 清单 4-$ 的 代码 之 后 ， 在 Python 提示 符 下 输入 : 


>>> bayes .SpamTITest () 
































the error rate is: 0.0 

>>> bayes .spamTest () 

classification error ['home', 'based', 'business', 'opportunity', 
'knocking', 'your', 'door', 'don', 'rude', 'and', 'let', 'this', 'chance', 
'you', 'can', 'earn', 'great', 'income', 'and', 'find', 'your', 
'financial', 'life', 'transformed', 'learn', 'more', 'here', 'your', 
'Ssuccess', 'work', 'from', 'home', 'finder', 'experts'] 

the error rate is: 0.1 


国 数 spammrest () 会 输出 在 10 封 随机 选择 的 电子 邮件 上 的 分 类 错误 率 。 既 然 这 些 电 子 邮件 
是 随机 选择 的 ， 所 以 每 次 的 输出 结果 可 能 有 些 差别 。 如 果 发 现 错误 的 话 ， 郴 数 会 输出 错 分 文 
档 的 词 表 ， 这 样 就 可 以 了 解 到 底 是 哪 篇 文档 发 后 了 错误 。 如 果 想 要 更 好 地 估计 错误 率 ， 那 么 
就 应 该 将 上 述 过 程 重复 多 次 ， 比 如 说 10 次 ， 然 后 求 平 均值 。 我 这 么 做 了 一 下 ， 获 得 的 平均 错 
误 率 为 6%。 

这 里 一 直 出 现 的 错误 是 将 垃圾 邮件 误 判 为 正常 邮件 。 相 比 之 下 , 将 垃圾 邮件 误 判 为 正常 邮件 
要 比 将 正 背 邮件 归 到 垃圾 邮件 好 。 为 避免 错误 ， 有 多 种 方式 可 以 用 来 修正 分 类 天 ， 这 些 将 在 第 7 
章 中 进行 讨论 。 

目前 我 们 已 经 使 用 朴 系 贝 叶 斯 来 对 文档 进行 分 类 , 接 下 来 将 介绍 它 的 男 一 个 应 用 。 下 一 个 例 
子 还 会 给 出 如 何 解释 朴素 贝 叶 斯 分 类 需 训 练 所 得 到 的 知识 。 
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4.7 示例: 使 用 朴素 贝 时 斯 分 类 器 从 个 人 广告 中 犹 取 区 域 倾 癌 


本 章 的 最 后 一 个 例子 非 尝 有 趣 。 我 们 前 面 介绍 了 朴 么 贝 叶 斯 的 两 个 实际 应 用 的 例子 ,第 一 个 
例子 是 过 滤 网 站 的 恶意 留言 ， 第 二 个 是 过 滤 垃 圾 邮件 。 分 类 还 有 大 量 的 其 他 应 用 。 我 曾经 见 过 有 
人 使 用 朴素 贝 叶 斯 从 他 喜欢 及 不 喜欢 的 女性 的 社交 网 络 档案 学 习 相 应 的 分 类 需 , 然后 利用 该 分 类 
俩 测试 他 是 否 会 喜欢 一 个 阳 生 女人 。 分 类 的 可 能 应 用 确实 有 很 多 ， 比 如 有 证 据 表 示 ， 人 的 年 龄 越 
大 ,他 所 用 的 词 也 越 好 。 那么 ,可 以 基于 一 个 人 的 用 词 来 推测 他 的 年 龄 吗 ” 除了 年 龄 之 外 ， 还 能 
否 推测 其 他 方面 ? 广告 商 往往 想 知 道 关 于 一 个 人 的 一 些 特定 人 口 统计 信息 , 以 便 能 够 更 好 地 定 问 
推销 广告 。 从 哪里 可 以 获得 这 些 训练 效 据 呢 ? 事实 上 , 互联 网 上 拥有 大 量 的 训练 数据。 几乎 任 一 
个 能 想到 的 利 基 市 场 * 都 有 专业 社区 ,很 多 人 会 认为 自己 属于 该 社区 。4.5.1 方 中 的 斑点 犬 爱好 者 
网 站 就 是 一 个 非常 好 的 例子 。 

在 这 个 最 后 的 例子 当中 , 我 们 将 分 别 从 美国 的 两 个 城市 中 选取 一 些 人 , 通过 分 析 这 些 人 发 布 的 
征婚 广告 信息 , 来 比较 这 两 个 城市 的 人 们 在 广告 用 词 上 是 否 不 同 。 如 来 结论 确实 是 不 同 , 那么 他 们 
各 日 第 用 的 词 是 哪些 ?从 人 们 的 用 词 当 中 ， 我 们 能 否 对 不 同城 市 的 人 所 关心 的 内 容 有 所 了 解 ? 












































示例 : 使 用 朴素 贝 叶 斯 来 发 现 地 域 相关 的 用 词 
(1) 收集 数据 : 从 RSS 源 收集 内 容 ， 这 里 需要 对 RSS 源 构建 一 个 接口 。 
(2) 准备 数据 : 将 文本 文件 解析 成 词 条 向 量 。 
(3) 分 析 数 据 : 检查 词 条 确保 解析 的 正确 性 。 
(4) 训练 算法 : 使 用 我 们 之 前 建立 的 trainNB0() 函数 。 
(5) 测试 算法 : 观察 错误 率 ， 确 保 分 类 器 可 用 。 可 以 修改 切 分 程序 ， 以 降低 错误 率 ， 提 高 
SEE 结果 。 


刀 大 


常用 的 公共 词 。 





下 面 将 使 用 来 目 不 同城 市 的 广告 训练 一 个 分 类 天 ,然后 观察 分 类 带 的 效果 。 我 们 的 目的 并 不 
是 使 用 该 分 类 融 进 行 分 类 ， 而 是 通过 观察 单词 和 条 件 概率 值 来 发 现 与 特定 城市 相关 的 内 容 。 





4.7.1 收集 数据 : 导入 RSS 源 


接 下 来 要 做 的 第 一 件 事 是 使 用 Python 下 载 文本 。 科 好， 利用 RSS， 这 些 文本 很 容易 得 到 。 现 
在 所 需要 的 是 一 个 RSS 阅 该 肯 。Universal Feed Parser 是 Python 中 最 常用 的 RSS 程 序 库 。 

















QD 利 基 (niche ) 是 指针 对 企业 的 优势 细 分 出 来 的 市 场 ， 这 个 市 场 不 大 ， 而 且 没有 得 到 令 人 满意 的 服务 。 产 品 推进 这 
个 市 场 ， 有 和 鱼 利 的 基础 。 在 这 里 特 指针 对 性 和 专业 性 都 很 强 的 产品 。 也 就 是 说 ， 利 基 是 细 分 市 场 没 有 被 服务 好 的 
群体 。 一 一 详 者 注 
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你 可 以 在 http:/code.google.comy/p/feedparser 下 浏览 相关 文档 ， 然 后 和 其 他 Python 包 一 样 来 安 
装 feedparse。 首 先 解压 下 载 的 包 ， 并 将 当前 目录 切换 到 解压 文件 所 在 的 文件 夹 ， 然 后 在 Python 提 
示人 符 下 敲 人 >>python setup.py install。 
下 面 使 用 Craigslist 上 的 个 人 广告 ， 当 然 希望 是 在 服务 条 款 允 许 的 条 件 下 。 打 开 Craigslist 上 的 
RSS 源 ， 在 Python 提示 符 下 输入 : 


>>> import feedparser 
>>>ny=feedparser.parse('http://newyork.craigslist.org/stp/index.rss') 


我 决定 使 用 Craigslist 中 比较 纯洁 的 那 部 分 内 容 ， 其 他 内 容 稍 显 少 儿 不 宜 。 你 可 以 查阅 
feedparser.org 中 出 色 的 说 明文 档 以 及 RSS 源 。 要 访问 所 有 条 目的 列表 ， 输 入 : 


>>> nyl'entries'] 
>>> len(nyl[l'entries']) 
100 


可 以 构建 一 个 类 似 于 spamTest () 的 郴 数 来 对 测试 过 程 自动 化 。 打 开 文 本 编辑 器 ， 输 入 下 列 
程序 清单 中 的 代码 。 


程序 清单 4-6 ”RSS 源 分 类 需 及 高 频 词 去 除 果 数 


def calcMostFregq (vocabList,fullText): 
import operator 
freqDict = {)} 
for token in vocabList: 
freqDict [token|]=fullText .count (token) 
sortedFreq = sorted (freqDict.iteritems(), key=operator.itemgetter (1),\ 
reverse=True) 
return sortedFreql[:30] 

















计算 出 现 频率 


def localWords (feed1,feedO0): 
import feedparser 


docList=[]; classList = []; fullText =[] 

minLen = min(len(feedl['entries']),1len(feed0O['entries'|])) 

for i in range (minLen): 
wordList = textPparse (feedl['entries'] [i] ['summary'|]) 
docList.append (wordList) 
fullText .extend (wordList) 每 次 访问 一 
classList.append (1) 条 RSS 源 
wordList = textParse (feed0O['entries'] [i] ['summary'|]) 


docList.append (wordList) 

fullText .extend (wordList) 

classList.append(o) 
vocabList = createVocabList (docList) 去 掉 出 现 次 数 最 
top30Words = calcMostFreq (vocabList,fullText) 高 的 那些 词 
for pairW in top30Words: 

if pairWw[0] in vocabList: vocabList.remove (pairW[0]) 


trainingSet = range (2*minLen); testSet=[] 
for i in range (20): 
randIindex = int (random.uniform(0,1len (trainingSset))) 


testSet .append (trainingSet [randIindex|]) 
del (trainingSsSet [randIndex]) 
trainMat=[]; trainClasses = 上 [] 
for docIindex in trainingset: 
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trainMat .append (bagOfWords2VecMN (vocabList, docList [docIindex])) 
trainClasses.append (classList [docIndexl]) 
POV,plV,pSpam = trainNB0O (array (trainMat),array (trainClasses)) 
errorCount = 0 
for docIindex in testSet: 
wordVector = bagOfWords2VecMN (vocabList, docList[docIindex|]) 
if classifyNB (array (wordVector) ,pOV,plV,pSpam) != \ 
classList [docIindexl]: 
errorCount += 1 
print 'the error rate is: ',float (errorCount)/len(testsSset) 
return vocabList,pOV,plV 


上 上 述 代 码 类 似 程 序 清单 4-5 中 的 函数 spamTest () , 不 过 添加 了 新 的 功能 。 代码 中 引入 了 一 个 
辅助 了 数 calcMostFreq() 人 @, 该 郧 数 遍 历 词 汇 表 中 的 每 个 词 并 统计 它 在 文本 中 出 现 的 次 数 ， 然 
后 根据 出 现 次 数 从 高 到 低 对 词典 进行 排序 , 最 后 返回 排序 最 高 的 30 个 单词 。 你 很 快 就 会 明白 这 个 
中 数 的 重要 性 。 

下 一 个 函数 localWords () 使 用 两 个 RSS 源 作为 参数 。RSS 源 要 在 函数 外 导入 ， 这 样 做 的 原 
因 是 RSS 源 会 随时 间 而 改变 。 如 果 想 通过 改变 代码 来 比较 程序 执行 的 差异 ， 就 应 该 使 用 相同 的 输 
入 。 重 新 加 载 RSS 源 加 会 得 到 新 的 数据 ， 但 很 难 确定 是 代码 原因 还 是 输入 原因 导致 输出 结果 的 改 
变 。 函 数 1ocalWords () 与 程序 清单 4-5 中 的 spamTest () 困 数 儿 乎 相同 ,区别 在 于 这 里 访问 的 是 
RSS 源 伟 而 不 是 文件 。 然 后 调用 困 数 calcMostFred() 来 获得 排序 最 高 的 30 个 单词 并 随后 将 它们 
移 除 个 。 柄 数 的 剩余 部 分 与 spamrest () 基本 类 似 , 不 同 的 是 最 后 一 行 要 返回 下 面 要 用 到 的 值 。 

你 可 以 注释 掉 用 于 移 除 高 频 词 的 三 行 代码 , 然后 比较 注释 前 后 的 分 类 性 能 合 , 我 自己 也 尝试 
了 一 下 ， 去 抒 这 几 行 代码 之 后 ， 我 发 现 错误 率 为 34%， 而 保留 这 些 代 码 得 到 的 错误 率 为 70%。 这 
里 观察 到 的 一 个 有 趣 现象 是 ， 这 些 留 言 中 出 现 次 数 最 多 的 前 30 个 词 涵盖 了 所 有 用 词 的 30%。 我 在 
进行 测试 的 时 候 , vocabList 的 大 小 约 为 3000 个 词 。 也 就 是 说 , 词汇 表 中 的 一 小 部 分 单词 却 占据 
了 所 有 文本 用 词 的 一 大 部 分 。 产 生 这 种 现象 的 原因 是 因为 语言 中 大 部 分 都 是 见 余 和 结构 辅助 性 内 
容 。 为 一 个 第 用 的 方法 是 不 仪 移 除 高 频 词 ，, 同时 从 某 个 预定 词 表 中 移 除 结构 上 的 辅助 词 。 该 词 表 
称 为 停 用 词 表 ( stop word list ), 目前 可 以 找到 许多 停 用 词 表 ( 在 本 书写 作 期 间 , http://www.ranks.nl/ 
resources/stopwords.html 上 有 一 个 很 好 的 多 语言 停 用 词 列 表 )。 

将 程序 清单 4-6 中 的 代码 加 入 到 bayes .py 文件 之 后 ， 可 以 通过 输入 如 下 命令 在 Python 中 进行 
测试: 

>>> reload (bayes) 

<module 'bayes' from 'bayes.py'> 

>>>ny=feedparser.parse('http://newyork.craigsligst.org/stp/index.rss') 


>>>sSf=feedparser.parse('http://sfbay.craigslist.org/stp/index.rss') 
>>> VvocabList,pSF,pPNY=bayes.localWords (ny, sf) 
























































the error rate is: 0.1 
>>> VocabList,pSF,pPNY=bayes.localWords (ny, sf) 
the error rate 18: 0.35 





为 了 得 到 错误 率 的 精确 估计 ， 应 该 多 次 进行 上 述 实验 ,然后 取 平 均值 。 这 里 的 错误 率 要 远 高 
于 垃圾 邮件 中 的 错误 率 。 由 于 这 里 关注 的 是 单词 概率 而 不 是 实际 分 类 ， 因 此 这 个 问题 倒 不 严重 。 
可 以 通过 限 数 caclMostFreq () 改变 要 移 除 的 单词 数 日 ， 然 后 观察 错误 率 的 变化 情况 。 
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4.7.2 分 析 数 据 : 显示 地 域 相关 的 用 词 


可 以 先 对 癌 量 pSF 与 pNY 进 行 排 序 ， 然 后 按照 顺序 将 词 打 印 出 来 。 下 面 的 最 后 一 段 代码 会 完 
成 这 部 分 工作 。 再 次 打开 bayes.py 文 件 ， 将 下 面 的 代码 添加 到 文件 中 。 


程序 清单 4-7 ”最 具 表 征 性 的 词汇 显示 函数 
def getTopWords (ny, sf): 
import operator 
vocabList,pOV,plV=localWords (ny, sf) 
topNY=[] ; topSF=[] 
for i in range (len (pOV)): 
if pOV[i] > -6.0 : topSF.append( (vocabList [i],pOV[i],)) 
if plV[i] > -6.0 : topNY.append( (vocabList [i] ,plV[i],)) 
sortedSF = sorted(topSsrF, key=lambda pair: pair[l], reverse=True) 
print "SF**SF**SF**SF*X*SF**SF**SOF**SF**SOF**SOF**SOF**SOF**wSOEF*w*wSF** 
for item in SOorteQSF : 
print item[0] 
sortedNY = sorted(topNY, key=lambda pair: pair[l], reverse=True) 
print "NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**xNY**NY**NY xx 
for item in sortedNY: 
print item[0] 


程序 清单 4-7 中 的 也 数 getTopwords () 使 用 两 个 RSS 源 作为 输入 ， 然 后 训练 并 测试 朴素 贝 叶 
斯 分 类 需 ， 返 和 使 用 的 概率 值 。 然 后 创建 两 个 列 表 用 于 元 组 的 存储 。 与 之 前 返回 排名 最 高 的 X 个 
单词 不 同 ， 这 里 可 以 返回 大 于 某 个 国 值 的 所 有 词 。 这 些 元 组 会 按照 它们 的 条 件 概 率 进 行 排序 。 

人 下 实际 的 运行 效果 ， 保 存 bayes.py 文 件 ， 在 Python 提示 符 下 输入 : 


>>> reload (bayes) 

<module 'bayes' from 'bayes .pyc'> 
>>> bayes .getTopWords (ny, sf) 

the error rate is: 0.2 

对 已 类 类 局 下 炎炎 外 类 尖 对 开 类 类 局 下 炎炎 与 开火 类 对 开 炎 关口 下 炎炎 局 下 炎炎 与 下 类 类 与 开 炎 类 局 下 炎炎 与 下 炎炎 S 忆 类 类 局 下 大火 台所 炎炎 
love 

time 

will 

there 

hit 

send 

francisco 

female 
NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**wNY** 
friend 

people 

will 

single 

Sex 

female 

night 

420 

relationship 

play 

hope 
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最 后 输出 的 单词 很 有 意思 。 值 得 注意 的 现象 是 , 程序 输出 了 大 量 的 集 用 词 。 移 除 固定 的 信用 
词 看 看 结 末 会 如 何 变 化 也 十 分 有 趣 。 依 我 的 经 验 来 看 ， 这 样 做 的 话 ， 分 类 错误 率 也 会 降低 。 


4.8 ”本 草 小 结 


对 于 分 类 而 言 , 使 用 概率 有 时 要 比 使 用 人 硬 规则 更 为 有 效 。 贝 叶 斯 概率 及 贝 叶 斯 准则 提供 了 一 
种 利用 已 知 值 来 估计 未 知 概 率 的 有 效 方 法 。 

可 以 通过 特征 之 间 的 条 件 独立 性 假设 , 降低 对 数据 量 的 需求 。 独立 性 假设 是 指 一 个 词 的 出 现 
概率 并 不 依赖 于 文档 中 的 其 他 词 。 当 然 我 们 也 知道 这 个 假设 过 于 简单 。 这 就 是 之 所 以 称 为 朴素 贝 
叶 斯 的 原因 。 尽 管 条 件 独立 性 假设 并 不 正确 ， 但 是 朴素 贝 叶 斯 仍然 是 一 种 有 效 的 分 类 顺 。 

利用 现代 编程 语言 来 实现 朴 系 贝 叶 斯 时 需要 考虑 很 多 实际 因素 。 下 溢出 就 是 其 中 一 个 问题 ， 
它 可 以 通过 对 概率 取 对 数 来 解决 。 词 袋 模型 在 解决 文档 分 类 问题 上 比 词 集 模型 有 所 提高 。 还 有 其 
他 一 些 方 面 的 改进 ， 比 如 说 移 除 停 用 词 ， 当 然 也 可 以 花 大 量 时 间 对 切 分 大 进行 优化 。 

本 章 学 习 到 的 概率 理论 将 在 后 续 章节 中 用 到 , 另外 本 章 也 给 出 了 有 关 贝 叶 斯 概率 理论 全 面具 
体 的 介绍 。 接 下 来 的 一 章 将 暂时 不 再 讨论 概率 理论 这 一 话题 ， 介 绍 另 一 种 称 作 Logistic 回 归 的 分 
类 方法 及 一 些 优 化 算法 。 









































Logistic 回 归 


本 章 内 容 

口 Sigemoid 孙 数 和 Logistic 回 归 分 类 邦 
口 最 优化 理论 初步 

口 梯度 下 降 最 优化 算法 

口 数据 中 的 缺失 项 处 理 


这 会 是 激动 人 心 的 一 草 ， 因 为 我 们 将 首次 接触 到 最 优化 算法 。 仔 细 想 想 就 会 发 现 ， 其 实 我 们 
日 常生 活 中 遇 到 过 很 多 最 优化 问题 ， 比 如 如 何在 最 短 时 间 内 从 A 点 到 达 B 点 ?如 何 投 入 最 少 工作 
量 却 获得 最 大 的 效益 ?如 何 设计 发 动机 使 得 油耗 最 少 而 功率 最 大 ? 可见 ， 最 优化 的 作用 十 分 强 
大 。 接 下 来 ， 我 们 介绍 几 个 最 优化 算法 ， 并 利用 它们 训练 出 一 个 非 线性 函数 用 于 分 类 。 

读者 不 熟悉 回归 也 没关系 ， 第 8 草 起 会 深入 介绍 这 一 主题 。 假 设 现 在 有 一 些 数 据点 ， 我 们 用 
一 条 直线 对 这 些 点 进行 拟 合 〈 该 线 称 为 最 佳 拟 合 直线 )， 这 个 拟 合 过 程 就 称 作 回归 。 利 用 Logistic 
回归 进行 分 类 的 主要 思想 是 : 根据 现 有 数据 对 分 类 边界 线 建立 回归 公式 ， 以 此 进行 分 类 。 这 里 的 
“回归 ”一 词 源 于 最 佳 拟 合 ,表示 要 找到 最 佳 拟 合 参数 集 ， 其 背后 的 数学 分 析 将 在 下 一 部 分 介绍 。 
训练 分 类 融 时 的 做 法 就 是 寻找 最 佳 拟 合 参数 , 使 用 的 是 最 优化 算法 。 接 下 来 介绍 这 个 二 值 型 输出 
分 类 种 的 数学 原理 。 























Logistic 回 归 的 一 般 过 程 
(1) 收集 数据 : 采用 任意 方法 收集 数据 。 
(2) 准备 数据 : 由 于 需要 进行 距离 计算 ， 因此 要 求 数据 类 型 为 数值 型 。 另 外 ， 结 构 化 数据 
格式 则 最 佳 。 
(3) 分 析 数 据 : 采用 任意 方法 对 数据 进行 分 析 。 
(4) 训练 算法 : 大 部 分 时 间 将 用 于 训练 ， 训 练 的 目的 是 为 了 找到 最 佳 的 分 类 回归 系数 。 
(5) 测试 算法 : 一 旦 训练 步骤 完成 ， 分 类 将 会 很 快 。 
(6) 使 用 算法 : 首先 ， 我 们 需要 输入 一 些 数据 ， 并 将 其 转换 成 对 应 的 结构 化 数值 ; 
接着 ， 基 于 训练 好 的 回归 系数 就 可 以 对 这 些 数 值 进行 简单 的 回归 计算 ,判定 它们 属于 
哪个 类 别 ; 在 这 之 后 ， 我 们 就 可 以 在 输出 的 类 别 上 做 一 些 其 他 分 析 工 作 。 
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本 草 首 先 曾 述 Logistic 回 归 的 定义 ， 然 后 介绍 一 些 最 优化 算法 ， 其 中 包括 基本 的 梯度 上 升 法 
和 一 个 改进 的 随机 梯度 上 升 法 ， 这 些 最 优化 算法 将 用 于 分 类 天 的 训练 。 本 草 最 后 会 给 出 一 个 
Logistic 回 归 的 实例 ， 预 测 一 匹 病 马 是 否 能 被 治愈 。 








从 | 


5.1 基于 Logistic 回归 和 Sigmoid 函数 的 分 类 


Logistic 回 归 
优点 : 计算 代价 不 高 ， 易 于 理解 和 实现 。 
缺点 : 容 萄 欠 拟 合 ， 分 类 精度 可 能 不 高 。 
适用 数据 类 型 : 数值 型 和 标 称 型 数据 。 


我 们 想 要 的 函数 应 该 是 ， 能 接受 所 有 的 输入 然后 预测 出 类 别 。 例 如 ， 在 两 个 类 的 情况 下 ， 上 
述 孔 数 输 出 0 或 1。 或 许 你 之 前 接触 过 具有 这 种 性 质 的 孙 数 ， 该 函数 称 为 海 维 塞 德 阶 跃 水 数 
( Heaviside step function )， 或 者 直接 称 为 单位 阶 路 函数 。 然 而 ， 海 维 去 德 阶 跃 国 数 的 问题 在 于 : 
该 函数 在 跳跃 点 上 从 0 瞬间 跳 贱 到 1， 这 个 瞬间 跳跃 过 程 有 时 很 难处 理 。 季 好 ， 男 一 个 函数 也 有 类 
似 的 性 质 "， 且 数学 上 更 易 处 理 ， 这 就 是 Sigmoid 函 数 ?。Sigmoid 函 数 具体 的 计算 公式 如 下 : 











0(2) = 一 一 
1 上 +e“ 


图 5-1 给 出 了 Sigmoid 函 数 在 不 同 坐 标尺 度 下 的 两 条 曲线 图 。 当 x 为 0 时 ，Sigmoid 孙 数值 为 0.5。 
随 着 x 的 增 大 ， 对 应 的 Sigmoid 值 将 允 近 于 1; 而 随 着 x 的 减 小 ，Sigmoid 值 将 通 近 于 0。 如 果 横 坐标 
刻度 足够 大 (图 $-1 下 图 )，Sigmoid 函 数 看 起 来 很 像 一 个 阶 跃 函 数 。 

因此 ， 为 了 实现 Logistic 回 归 分 类 需 ， 我 们 可 以 在 每 个 特征 上 都 乘 以 一 个 回归 系数 ， 然 后 把 
所 有 的 结果 值 相 加 ， 将 这 个 总 和 代入 Sigmoid 函 数 中 ， 进 而 得 到 一 个 范围 在 0~1 之 间 的 数值 。 任 
何 大 于 0.5 的 数据 被 分 和 人 1 类 ， 小 于 0.5 即 被 归 入 0 类 。 所 以 ，Logistic 回 归 也 可 以 被 看 成 是 一 种 概 
率 估 计 。 

确定 了 分 类 需 的 函数 形式 之 后 ， 现 在 的 问题 变 成 了 : 最 佳 回归 系数 "是 多 少 ? 如 何 确定 它们 
的 大 小 ? 这 些 问 题 将 在 下 一 节 解 答 。 














J 这 里 指 的 是 可 以 输出 0 或 者 1 的 这 种 性 质 。 一 一 译 者 注 

@) Sigmoid 函 数 是 一 种 阶 跃 函数 ( step function )。 在 数学 中 ， 如 果实 数 域 上 的 某 个 函数 可 以 用 半 开 区 间 上 的 指示 哺 数 
的 有 限 次 线性 组 合 来 表示 ,那么 这 个 函数 就 是 阶 跃 函数 。 而 数学 中 指示 函数 ( indicator function ) 是 定义 在 某 集合 
X 上 的 函数 ， 表 示 其 中 有 哪些 元 素 属 于 某 一 子 集 A。 译 者 注 

(3) 将 这 里 的 weight 翻译 为 “回归 系数 ”"， 是 为 了 与 后 面 的 局 部 加 权 线 性 回归 中 的 “权重 ”一 词 区 分 开 来 ， 在 不 会 引 
起 混 清 的 时 候 也 会 傈 称 为 “系数 "。 一 一 详 者 注 
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Sigmoid(x) 


Sigmoid(x) 


一 60 一 40 一 20 0 20 40 60 
X 


图 5-1 ”两 种 坐标 尺度 下 的 Sigmoid 卫 数 图 。 上 图 的 横 坐 标 为 -5 到 5， 这 时 的 曲线 变化 较 
为 平滑 ; 下 图 横 坐 标的 尺度 足够 大 ,可 以 看 到 , 在 x= 0 点 处 Sigmoid 琐 数 看 起 来 
很 像 阶 路 函数 











5.2 基于 最 优化 方法 的 最 佳 回 归 系 效 确定 


Sigmoid 函 数 的 输入 记 为 z2， 由 下 面 公式 得 出 : 
Zz= WX twX + WX, + + wx, 

如 果 末 用 癌 量 的 写法 ， 上 述 公 式 可 以 写成 z = wx， 它 表示 将 这 两 个 数值 癌 量 对 应 元 系 相 乘 然后 
全 部 加 起 来 即 得 到 z 值 。 其 中 的 向 量 x 是 分 类 絮 的 输入 数据 ， 癌 量 w 也 就 是 我 们 要 找到 的 最 佳 参 数 
(系数 ), 从 而 使 得 分 类 冀 尽 可 能 地 精确 。 为 了 寻找 该 最 佳 参 数 , 需要 用 到 最 优化 理论 的 一 些 知识 。 

下 面 首先 介绍 梯度 上 升 的 最 优化 方法 ， 我 们 将 学 习 到 如 何 使 用 该 方法 求 得 数据 集 的 最 佳 
参数 。 接 下 来 ， 展 示 如 何 绘制 梯度 上 升 法 产生 的 决策 边界 网 ， 该 图 能 将 梯度 上 升 法 的 分 类 效 
采 可 视 化 地 呈现 出 来 。 最 后 我 们 将 学 习 随 机 梯度 上 升 算法 ， 以 及 如 何 对 其 进行 修改 以 获得 更 
好 的 结果 。 


5.2.1 梯度 上 升 法 


我 们 介绍 的 第 一 个 最 优化 算法 叫做 梯度 上 升 法 。 样 度 上 升 法 基于 的 思想 是 : 要 找到 菏 函 数 的 
最 大 值 ， 最 好 的 方法 是 论 春 该 量 数 的 梯度 方 回 探寻 。 如 采 樟 度 记 为 V， 则 表 数 E(x,y) 的 标 度 由 
TT 
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9f (x,y) 
OX 
9f (x,y) 
Oy 
这 是 机 器 学 习 中 最 易 造 成 混淆 的 一 个 地 方 , 但 在 数学 上 并 不 难 , 需要 做 的 只 是 牢记 这 些 符号 
的 意义 。 这 个 梯度 意味 着 要 沿 * 的 方向 移动 民 c 切 ， 沿 y 的 方向 移动 过 J ， 其 中 ， 函 数 /Qey) 


必须 要 在 待 计 算 的 点 上 有 定义 并 且 可 微 。 一 个 具体 的 函数 例子 见 图 5-2。 


Vf (xX, y) = 








梯度 上 升 


2.0 





一 2.0 -1.5 -1.0 0.5 0.0 0.5 1.0 1.5 2.0 


图 5-2 ”梯度 上 升 算 法 到 达 每 个 点 后 都 会 重新 售 计 移动 的 方向 。 从 PO 开始， 计算 完 该 点 
的 梯度 ， 郴 数 就 根据 梯度 移动 到 下 一 点 P1。 在 P1 点 ， 梯 度 再 次 被 重新 计算 ， 并 
党 新 的 梯度 方向 移动 到 P2。 如 此 循环 迭代 , 直到 满足 停止 条 件 。 和 迭代 的 过 程 中 ， 
梯度 算 子 总 是 你 证 我 们 能 选取 到 最 佳 的 移动 方 回 


图 5-2 中 的 梯度 上 升 算法 治 梯 度 方 回 移动 了 一 步 。 可 以 看 到 ， 樟 度 算 于 总 是 指 问 男 数 值 增长 
最 快 的 方 回 。 这 里 所 说 的 是 移动 方向 ， 而 未 提 到 移动 量 的 大 小 。 该 量 值 称 为 步 长 ， 记 做 w 。 用 回 
量 来 表示 的 话 ， 梯 度 上 升 算法 的 迭代 公式 如 下 : 

w:= wtoV,,f(w) 

该 公式 将 一 下 被 介 代 执行 ， 直至 达到 某 个 停止 条 件 为 止 ， 比 如 迭代 次 数 达到 某 个 指定 值 或 算 

法 达到 有 某 个 可 以 允许 的 误差 范围 。 
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梯度 下 降 算 法 
你 最 经 常 听 到 的 应 该 是 梯度 下 降 算 法 , 它 与 这 里 的 梯度 上 升 算法 是 一 样 的 ， 只 是 公式 中 的 
加 法 需要 变 成 减法 。 因 此 ， 对 应 的 公式 可 以 写成 
w= w+oV,,f(w) 
梯度 上 升 算法 用 来 求 函数 的 最 大 值 ， 而 梯度 下 降 算 法 用 来 求 函数 的 最 小 值 。 


基于 上 面 的 内 容 ， 我 们 来 看 一 个 Logistic 回 归 分 类 带 的 应 用 例子 ， 从 图 5-3 可 以 看 到 我 们 采用 
的 数据 集 。 


@99 Class1 
@lB Classo0 





“5 一 3 = 一 0 1 2 3 4 
X1 
图 $-3 ”一 个 简单 数据 集 ， 下 面 将 采用 梯度 上 升 法 找到 Logistic 回 归 分 类 需 在 此 数据 集 








上 的 最 佳 回归 系数 


5.2.2 ”训练 算法 :使 用 梯度 上 升 找到 最 佳 参 妆 


图 5-3 中 有 100 个 样本 点 ， 每 个 点 包含 两 个 数值 型 特征 : X1 和 X2。 在 此 数据 集 上 ， 我 们 将 通 
过 使 用 梯度 上 升 法 找到 最 佳 回归 系数 ， 也 就 是 拟 合 出 Logistic 回 归 模 型 的 最 佳 参 数 。 
梯度 上 升 法 的 伪 代 人 码 如 下 : 
每 个 回归 系数 初始 化 为 ] 
重复 人 次 : 
计算 整个 数据 集 的 梯度 
使 用 alpha x gradient 更 新 回归 系数 的 向 量 
返回 回归 系数 
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下 面 的 代码 是 梯度 上 升 算 法 的 具体 实现 。 为 了 解 实际 效果 , 打开 文本 编辑 带 并 创建 一 个 名 为 
logRegres.py 的 文件 ， 输 入 下 列 代码 : 


程序 清单 5-1 ”Logistic 回归 梯度 上 升 优化 算法 
def loadDataset () : 
dataMat = []; labelMat = 
fr = open('testSet .txt') 
for line in fr.readlines(): 
lineArr = line.strip() .split() 
dataMat .append([1.0, float (lineArr[0]), float (lineArr[1])]) 
labelMat .append (int (lineArr[2])) 
return dataMat, labelMat 





[] 


def sigmoid (inx): 
return 1.0/ (1l+exp (-inx)) 


def gradAscent (dataMatIn, classLabels): 
dataMatrix = mat (dataMatIn) 转换 力 NumPy 和 矩阵 
labelMat = mat (classLabels) .transpose() 数据 类 型 
m,n = shape (dataMatrix) 
alpha = 0.001 
maxCycles = 500 
weights = ones((n,1)) 
for k in range (maxCycles): 和 矩阵 相 乘 
h = sigmoid(dataMatrix*weights) 
error = (labelMat - h) 
weights = weights + alpha * dataMatrix.transpose()* error 
return weights 


程序 清单 5-1 的 代码 在 开头 提供 了 一 个 便利 滑 数 loadDataSet ()， 它 的 主要 功能 是 打开 文本 
文件 testSet .txt 并 逐 行 读 取 。, 每 行 剖 两 个 值 分 别 是 X1 和 X2, 第 三 个 值 是 数据 对 应 的 类 别 标签 。 
此 外 , 为 了 方便 计算 , 该 函数 还 将 X0 的 值 设 为 1.0。 接 下 来 的 函数 是 5.2 节 提 到 的 函数 sigmoid()。 

梯度 上 升 算法 的 实际 工作 是 在 函数 gradqaAscent () 里 完成 的 , 该 函数 有 两 个 参数 。 第 一 个 参 
数 是 dataMatIn， 它 是 一 个 2 维 NumPy 数 组 ， 每 列 分别 代 表 每 个 不 同 的 特征 ， 每 行 则 代表 每 个 训 
练 样 本 。 我 们 现在 采用 的 是 100 个 样本 的 简单 数据 集 ， 它 包含 了 两 个 特征 X1 和 X2， 上 骨 加 上 第 0 维 
寺 征 X0， 所 以 dataMathln 里 存放 的 将 是 100x3 的 和 矩阵。 在 @@ 处 ， 我 们 获得 输入 数据 并 将 它们 转 
换 成 NumPy 和 矩阵 。 这 是 本 书 首次 使 用 NumPy 和 矩阵 ， 如果 你 对 矩 阵 数学 不 太 束 悉 , 那么 一 些 运 算 可 
能 就 会 不 多 理解 。 比 如 ，NumPy 对 2 维 数 组 和 和 矩阵 都 提供 一 些 操 作文 持 ， 如 果 混 淆 了 数据 类 型 和 
对 应 的 操作 ， 执 行 结果 将 与 预期 截然 不 同 。 对 此 ， 本 书 附 录 A 给 出 了 对 NumPy 和 矩阵 的 介绍 。 第 二 
个 参数 是 类 别 标签 ， 它 是 一 个 1x100 的 行 回 量 。 为 了 便于 矩阵 运算 ， 需 要 将 该 行 回 量 转换 为 列 回 
量 ， 做 法 是 将 原 向 量 转 置 ， 再 将 它 赋 值 给 1abelMat。 接 下 来 的 代码 是 得 到 矩阵 大 小 ， 再 设置 一 
些 梯度 上 升 算法 所 需 的 参数 。 

变量 alpha 是 问 目 标 移动 的 步 长 ，maxcycles 是 迭代 次 数 。 在 for 循 环 迭 代 完 成 后 ， 将 返回 
训练 好 的 回归 系数 。 需 要 强调 的 是 ， 在 个 处 的 运算 是 矩阵 运算 。 变 量 h 不 是 一 个 数 而 是 一 个 列 向 
量 ， 列 回 量 的 元 系 个 数 等 于 样本 个 数 ， 这 里 是 100。 对 应 地 ， 运 算 qaataMatrix * weights 代 表 
的 不 止 一 次 乘积 计算 ， 事 实 上 该 运算 包含 了 300 次 的 乘积 。 
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最 后 还 需 说 明 一 点 ,你 可 能 对 全 中 公式 的 前 两 行 觉得 陌生 。 此 处 略 去 了 一 个 简单 的 数学 推导 ， 
我 把 它 留 给 有 兴趣 的 读者 。 定 性 地 说 , 这 里 是 在 计算 真实 类 别 与 预测 类 别 的 差 值 ， 接 下 来 就 是 按 
照 该 差 值 的 方 同 调整 回归 系数 。 

接 下 来 看 看 实际 效 朱 ， 打 开 文 本 编辑 硕 ， 添 加 程序 清单 5-1 的 代码 。 

在 Python 提示 符 下 ， 禹 入 下 面 的 代码 : 

>>> import logRegres 

>>> dataArr, labelMat=logRegres.1loadDataset () 

>>> logRegres .gradAscent (dataArr, labelMat) 

matrix([[ 4.12414349] ， 


[ 0.48007329] ， 
[-0.6168482 ]]) 




















5.2.3 ”分 析 数 据 : 画 出 决策 边界 


上 而 已 经 解 出 了 一 组 回归 系数 , 它 确定 了 不 同类 别 数据 之 间 的 分 阳线 ,那么 怎样 画 出 该 分 隔 线 ， 
从 而 使 得 优化 的 过 程 便 于 理解 呢 ?” 下 面 将 解决 这 个 问题 ， 打 开 logRegres .py 并 添加 如 下 代码 。 


程序 清单 5-2” 画 出 数据 集 和 Logistic 回 归 最 佳 拟 合 直 线 的 函数 
def plotBestFit (wei): 
import matplotlib.pyplot as plt 
weights = weli.getA() 
dataMat, labelMat=loadDataset  () 
dataArr = array (dataMat) 
n = shape (dataArr) [0] 
xcordl = []; ycordl = 上 
xcord2 = []; ycord2 = [|] 
for i in range (也 ) : 
if int (labelMat [i])== 
xcordl.append (dataArr[i,1]); ycordl.append (dataArr[i,2]) 
else: 
xcord2.append (dataArr[i,1]); ycord2.append (dataArr[i,2]) 
fig = plt.figure() 
ax = fig.add subplot (111) 
ax.scatter (xcordl, ycordl, s=30, c='red', marker='s') 
ax.scatter (xcord2, ycord2, s=30, c='green') 
X = arange(-3.0, 3.0, 0.1) 








y = (-weights [0] -weights [1] *x) /weights [2] 

ax.plot (x, Y) 6 最 佳 拟 合 直 线 
plt .xlabel ('X1'); plt.ylabel ('X2°'),;) 

plt .Show () 


程序 清单 5-2 中 的 代码 是 直接 用 Matplotlib 画 出 来 的 。 唯 一 要 指出 的 是 ，@@ 处 设置 了 sigmoia 
为 数 为 0。 回 忆 5$.2 节 ，0 是 两 个 分 类 (类别 1 和 类 别 0 ) 的 分 界 处 。 因 此 ， 我们 设 定 0 = woxo + Wixl 十 
W2z， 然 后 解 出 X2 和 XI1 的 关系 式 〈 即 分 隔 线 的 方程 ， 注 意 X0 = 1 )。 

运行 程序 清单 5-2 的 代码 ， 丰 Python 提示 符 下 输入 : 
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>>> from numpy import * 
>>> reload (logRegres,) 
<module 'logRegres' from 'logRegres.py'> 
>>> logRegres .plotBestFit (weights.getA()) 


输出 的 结果 如 图 5-4 所 示 。 





Xl 


图 5-4 ”梯度 上 升 算 法 在 500 次 迭代 后 得 到 的 Logistic 回 归 最 佳 拟 合 直 线 
这 个 分 类 结果 相当 不 错 , 从 图 上 看 只 错 分 了 两 到 四 个 点 。 但 是 , 尽管 例子 简单 旦 数据 集 很 小 ， 








这 个 方法 却 需 要 大 量 的 计算 (300 次 乘法 )。 因 此 下 一 市 将 对 该 算法 稍 作 改进 ， 从 而 使 它 可 以 用 在 
真实 数据 集 上 。 


5.2.4 训练 算法 : 随机 梯度 上 升 


梯度 上 升 算法 在 每 次 更 新 回归 系数 时 都 害 要 遍历 整个 数据 集 ， 该 方法 在 处 理 100 个 左右 的 数 
据 集 时 尚 可 , 但 如 果 有 数 十 亿 样 本 和 成 千 上 万 的 特征 ,那么 该 方法 的 计算 复杂 度 就 太 高 了 。 一 种 
改进 方法 是 一 次 仅 用 一 个 样本 点 来 更 新 回归 系数 , 该 方法 称 为 随机 梯度 上 升 算法 。 由 于 可 以 在 新 
样本 到 来 时 对 分 类 融 进 行 增 量 式 更 新 ,因而 随机 梯度 上 升 算 法 是 一 个 在 线 学 习 算 法 。 与 “在 线 学 
习 ” 相 对 应 ， 一 次 处 理 所 有 数据 被 称 作 是 “ 批 处 理 ”。 
随机 梯度 上 升 算法 可 以 写成 如 下 的 伪 代 人 码 : 
所 有 回归 系数 初始 化 为 1 
对 数据 集中 每 个 样本 
计算 该 样本 的 梯度 
使 用 alpha x gradient 更 新 回归 系数 值 
返回 回归 系数 值 


以 下 是 随机 标 度 上 升 算法 的 实现 代码 。 
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程序 清单 5-3 ”随机 梯度 上 升 算法 
def stocGradAscent0 (dataMatrix, classLabels): 
m,n = shape (dataMatrix) 
alpha = 0.01 
weights = ones (n) 
for i in range (m): 
h = sigmoid(sum(dataMatrix[i] *weights)) 
error = classLabels[i] - h 
weights = weights + alpha * error * dataMatrix[il] 
return weights 


可 以 看 到 ， 随 机 梯度 上 升 算法 与 梯度 上 升 算 法 在 代码 上 很 相似 , 但 也 有 一 些 区 别 : 第 一 , 后 
者 的 变量 h 和 误差 error 都 是 癌 量 ,而 前 者 则 全 是 数值 ; 第 二 ， 前 者 没有 和 矩阵 的 转换 过 程 ， 所 有 
变量 的 数据 类 型 都 是 NumPy 数 组 。 

为 了 验证 该 方法 的 结果 ， 我 们 将 程序 清单 $-3 的 代码 添加 到 logResgres.py 中 ， 并 在 Python 提示 
符 下 输入 如 下 命令 : 


>>> from numpy import* 

>>> reload (logRegres) 

<module 'logRegres' from 'logRegres.py'> 

>>> dataArr, labelMat=logRegres.1loadDataSset () 

>>> weights=logRegres.stocGradAscent0 (array (dataArr) ,1labelMat) 
>>> logRegres .plotBestFit (weights) 


执行 完毕 后 将 得 到 图 5-5 所 示 的 最 佳 拟 合 直 线 图 ， 该 图 与 图 5-4 有 一 些 相似 之 处 。 可 以 看 到 ， 拟 合 
出 来 的 二 线 效 果 还 不 错 ， 但 并 不 像 图 $-4 那 样 完美 。 这 里 的 分 类 融 错 分 了 三 分 之 一 的 样本 。 

百 接 比 较 程 序 清单 S-3 和 程序 清单 5-1 的 代码 结 末 是 不 公平 的 ， 后 者 的 结 末 是 在 整个 数据 集 上 
迭代 了 500 次 才 得 到 的 。 一 个 判断 优化 算法 优 劣 的 可 靠 方 法 是 看 它 是 否 收敛 ， 也 就 是 说 参数 是 否 
达到 了 稳定 值 ， 是 否 还 会 不 断 地 变化 ?对 此 ， 我 们 在 程序 清单 5-3 中 随机 梯度 上 升 算 法 上 做 了 些 
修改 ， 使 其 在 整个 数据 集 上 运行 200 次 。 最 终 绘 制 的 三 个 回归 系数 的 变化 情况 如 图 5-6 所 示 。 
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图 5-5 ”随机 梯度 上 升 算 法 在 上 述 数 据 集 上 的 执行 结 采 ， 最 佳 拟 合 下 线 并 非 最 佳 分 类 线 
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图 5-6 ”运行 随机 梯度 上 升 算法 ， 在 数据 集 的 一 次 过 历 中 回归 系数 与 迭代 次 数 的 关系 
图 。 回 归 系 数 经 过 大 量 迭 代 才 能 达到 稳定 伸 ， 并 且 仍 然 有 局 部 的 波动 现象 


图 5-6 展 示 了 随机 梯度 上 升 算法 在 200 次 迭代 过 程 中 回归 系数 的 变化 情况 。 其 中 的 系数 2， 也 
就 是 图 5-5 中 的 X2 只 经 过 了 50 次 迭代 就 达到 了 稳定 值 ， 但 系数 1 和 0 则 需要 更 多 次 的 迭代 。 男 外 值 
得 注意 的 是 ， 在 大 的 波动 停止 后 ,还 有 一 些小 的 周期 性 波动 。 不 难 理解 ， 产生 这 种 现象 的 原因 是 
存在 一 些 不 能 正确 分 类 的 样本 点 (数据 集 并 非 线 性 可 分 ), 在 每 次 迭代 时 会 引发 系数 的 剧烈 改变 
我 们 期 望 算法 能 避免 来 回 波动 ， 从 而 收敛 到 某 个 值 。 男 外 ， 收 敛 速度 也 需要 加 快 。 

对 于 图 5-6 存 在 的 问题 ， 可 以 通过 修改 程序 清单 5-3 的 随机 梯度 上 升 算 法 来 解决 ， 具 体 代 码 
如 下 。 


程序 清单 5-4 ”改进 的 随机 梯度 上 升 算法 
def stocGradAscentl (dataMatrix, classLabels, numlter=150): 
m,n = shape (dataMatrix) 











weights = ones (n) 
for Jj in range (numIter): dataIndex = range (m) 
for i in range (m) : 0 达 代 
alpha = 4/(1.0+j+i)+0.01 时 需要 调整 
randIindex = int (random.uniform(0,1en(dataIndex))) 
h = sigmoid(sum(dataMatrix[lrandIndex| *weights)) 
error = classLabels[randIindex] - h 


weights = weights + alpha * error * dataMatrix[randIndex] 
del (dataIndex[randIndex|]) 
return weights 


随机 选取 更 新 
程序 清单 5-4 己 程序 清单 -3 类似 ， 但 增加 了 两 处 代码 来 进行 改进 。 
第 一 处 改进 在 人 处。 一 方面 ，alpha 在 每 次 迭代 的 时 候 都 会 调整 ， 这 会 缓解 图 5-6 上 的 数据 波 
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动 或 者 高 频 波 动 。 另 外 , 虽然 alpha 会 随 着 迭代 次 数 不 断 减 小 , 但 永远 不 会 减 小 到 0, 这 是 因为 @ 中 
还 存在 一 个 常数 项 。 必 须 这 样 做 的 原因 是 为 了 保证 在 多 次 迭代 之 后 新 数据 仍然 具有 一 定 的 影响 。 
如 条 要 处 理 的 问题 是 动态 变化 的 , 那么 可 以 适当 加 大 上 述 和 常数 项 , 来 确保 新 的 值 获 得 更 大 的 回归 
系数 。 男 一 点 值得 注意 的 是 , 在 降低 alpha 的 函数 中 , alpha 每 次 减少 1/ (j+i) , 其 中 j 是 迭代 次 数 ， 
i 是 样本 点 的 下 标 "。 这 样 当 j<<max (i) 时，alpha 就 不 是 严格 下 降 的 。 避 人 免 参 数 的 严格 下 降 也 常 
见于 模拟 退火 算法 等 其 他 优化 算法 中 。 

程序 清单 5-4 第 二 个 改进 的 地 方 在 人 处， 这 里 通过 随机 选取 样本 来 更 新 回归 系数 。 这 种 方法 
将 减少 周期 性 的 波动 ( 如 图 5-6 中 的 波动 )。 具 体 实 现 方法 与 第 3 章 类 似 ， 这 种 方法 每 次 随机 从 列 
表 中 选 出 一 个 伸 ， 然 后 从 列表 中 删 挥 该 值 (再 进行 下 一 次 迭代 )。 

此 外 ， 改 进 算 法 还 增加 了 一 个 迭代 次 数 作 为 第 3 个 参数 。 如 果 该 参数 没有 给 定 的话 ， 算 法 将 
默认 迁 代 150 次 。 如 果 给 定 ， 那 么 算法 将 按照 新 的 参数 值 进行 迭代 。 EE 

与 stocGradAscent1 () 类 似 ， 图 5-7 显 示 了 每 次 迭代 时 各 个 回归 系数 的 变化 情况 。 
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图 5-7 使 用 样本 随机 选择 和 alpha 动 态 减 少 机 制 的 随机 梯度 上 升 算 法 stocGradaAscent1 () 
所 生成 的 系数 收敛 示意 图 。 该 方法 比 采 用 固定 alpha 的 方法 收敛 速度 更 快 


比较 图 5-7 和 图 5-6 可 以 看 到 两 点 不 同 。 第 一 点 是 ， 图 5-7 中 的 系数 没有 像 图 5-6 里 那样 出 现 周 
期 性 的 流动, 这 归功 于 stocGradaAscent1() 里 的 样本 随机 选择 机 制 ; 第 二 点 是 ， 图 5-7 的 水 平 轴 


J 要 注意 区 分 这 里 的 下 标 与 样本 编号 ， 编 号 表示 了 样本 在 矩阵 中 的 位 置 (代码 中 为 randIndex )， 而 这 里 的 下 标 奈 未 
本 次 达 代 中 第 i 个 选 出 来 的 样本 。 一 一 译 者 注 
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比 图 5-6 短 了 很 多 , 这 是 由 于 stocGradAscent1() 可 以 收敛 得 更 快 。 这 次 我 们 仪 仪 对 数据 集 做 了 
20 次 这 历 ， 而 之 前 的 方法 是 500 次 。 

下 面 看 看 在 同一 个 数据 集 上 的 分 类 效果 。 将 程序 清单 $-4 的 代码 添加 到 logRegres.py 文 件 中 ， 
并 在 Python 提示 符 下 输入 : 


>>> reload (logRegres) 

<module 'logRegres' from 'logRegres.py'> 

>>> dataArr, labelMat=logRegres.1loadDataset () 

>>> weights=logRegres.stocGradAscentl1 (array (dataArr) ,1labelMat) 
>>> logRegres .plotBestFit (weights) 


程序 运行 之 后 应 该 能 看 到 类 似 图 5-8 的 结果 图 。 该 分 隔 线 达到 了 与 GradientAscent() 差 不 
多 的 效果 ， 但 是 所 使 用 的 计算 量 更 少 。 
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图 $-8 ”使 用 改进 的 随机 梯度 上 升 算法 得 到 的 系数 


默认 迭代 次 数 是 130， 可 以 通过 stocGradqascent () 的 第 3 个 参数 来 对 此 进行 修改 ， 例 如 

>>> weights=logRegres.stocGradAscentl1 (array (dataArr),1labelMat, 500) 

目前 ,我们 已 经 学 习 了 儿 个 优化 算法 , 但 还 有 很 多 优化 算法 值得 探讨 ， 所 对 这 方面 已 有 大 量 
的 文献 可 供 参 考 。 男 外 再 说 明 一 下 ,针对 给 定 的 数据 集 , 读者 完全 可 以 对 算法 的 各 种 参数 进行 调 
整 ， 从 而 达到 更 好 的 效果 。 

迄今 为 止 我 们 分 析 了 回归 系数 的 变化 情况 , 但 还 没有 达到 本 章 的 最 终 目标 ， 即 完成 具体 的 分 
类 任务 。 下 一 市 将 使 用 随机 梯度 上 升 算法 来 解决 病 马 的 生死 预测 问题 。 
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5.3 示例: 从 疝气 病症 预测 病 马 的 死亡 率 


本 节 将 使 用 Logistic 回 归来 预测 患 有 疝 病 的 马 的 存活 问题 。 这 里 的 数据 "包含 368 个 样本 和 28 
个 特征 。 我 并 非 育 马 专家 ,从 一 些 文献 中 了 解 到 ,疾病 是 描述 马 骨 肠 痛 的 术语 。 然 而 ,这 种 病 不 
一 定 源 日 乌 的 家 肠 问 题 , 其 他 问题 也 可 能 引发 咏 疝 炳 。 该 数据 集中 包含 了 医院 检测 马 闸 病 的 一 些 
指标 ， 有 的 指标 比较 主观 ， 有 的 指标 难以 测量 ， 例 如 马 的 疼痛 级 别 。 








示例 : 使 用 Logistic 回 归 估 计 马 疝 病 的 死亡 率 

(1) 收集 数据 给 定数 据 文件 。 

(2) 准备 数据 : 用 Python 解析 文本 文件 并 填充 缺失 值 。 

(3) 分 析 数 据 : 可 视 化 并 观 圭 数据 。 

(4) 训练 算法 : 使 用 优化 算法 ， 找 到 最 佳 的 系数 。 

(5) 测试 算法 : 为 了 量化 回归 的 效果 ， 需 要 观察 错误 率 。 根 据 错 误 率 决定 是 否 回 退 到 训练 
阶段 ， 通 过 改变 迭代 的 次 数 和 步 长 等 参数 来 得 到 更 好 的 回归 系数 。 

(6) 使 用 算法 : 实现 一 个 简单 的 命令 行程 序 来 收集 马 的 症状 并 输出 预测 结果 并 非 难事 ， 这 
可 以 做 为 留 给 读者 的 一 道 习 题 。 


为 外 需要 说 明 的 是 , 除了 部 分 指标 主观 和 难以 测量 外 ,该 数据 还 存在 一 个 问题 ,数据 集中 有 
30% 的 值 是 缺失 的 。 下 面 将 首先 介绍 如 何 处 理 数 据 集中 的 数据 缺失 问题 , 然后 再 利用 Logistic 回 归 
和 随机 标 度 上 升 算法 来 预测 病 马 的 生死 。 


5.3.1 准备 数据 : 处 理 数据 中 的 缺失 值 


数据 中 的 缺失 值 是 个 非 第 环 手 的 问题 ,有 很 多 文献 部 致力 于 解决 这 个 问题 。 那么 ,数据 缺失 
完 竟 带 来 了 什么 问题 ?假设 有 100 个 样本 和 20 个 特征 ， 这 些 数 据 客 是 机 带 收 集 回来 的 。 大 机 研 上 
的 菏 个 传 感 硕 损坏 导致 一 个 特征 无 效 时 该 怎么 办 ? 此 时 是 否 要 扔 掉 整 个 数据 ? 这 种 情况 下 , 为 外 
19 个 特征 怎么 办 ? 它们 是 否 还 可 用 ?” 答案 是 肯定 的 。 因 为 有 时 候 数 据 相 当 昂 贯 , 扔 把 和 重新 获取 
都 是 不 可 取 的 ， 所 以 必须 采用 一 些 方法 来 解决 这 个 问题 。 

下 面 给 出 了 一 些 可 选 的 做 法 : 

口 使 用 可 用 特征 的 均值 来 填补 缺失 值 ; 

口 使 用 特殊 值 来 填补 缺失 值 ， 如 -1; 

D 忽略 有 缺失 值 的 样本 ; 

口 使 用 相似 样本 的 均值 添补 缺失 值 ; 

口 使 用 另外 的 机 带 学 习 算法 预测 缺失 值 。 









































Q 数据 集 来 自 2010 年 1 月 11 日 的 UCI 机 器 学 习 数 据 库 (http:/archive.ics.uci.edumldatasets/Horse+Colic )。 该 数据 最 早 
由 加 拿 大 安大略 省 圭 尔 夫 大 学 计算 机 系 的 Mary McLeish 和 Matt Cecile 收 集 。 
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现在 , 我 们 对 下 一 市 要 用 的 数据 集 进 行 预 处 理 , 使 其 可 以 顺利 地 使 用 分 类 算法 。 在 预 处 理 阶段 
需要 做 两 件 事 : 第 一 , 所 有 的 缺失 值 必须 用 一 个 实数 值 来 蔡 换 ， 因 为 我 们 使 用 的 NumPy 数 据 类 型 不 
人 允许 包含 缺失 值 。 这 里 选择 实数 0 来 蔡 换 所 有 缺失 值 ， 恰 好 能 适用 于 Logistic 回 归 。 这 样 做 的 下 党 在 
于 ， 我 们 需要 的 是 一 个 在 更 新 时 不 会 影响 系数 的 值 。 回 归 系 数 的 更 新 公式 如 下 : 

weights = weights + alpha * error * dataMatrix[randIndex] 

如 果 aataMatzrix 的 某 特 征 对 应 值 为 0， 那 么 该 特征 的 系数 将 不 做 更 新 ， 即 : 

weights = weights 

为 外 ， 由 于 sigmoiq (0)=0.5， 即 它 对 结果 的 预测 不 具有 任何 倾 回 性 ， 因 此 上 述 做 法 也 不 会 对 
误差 项 造成 任何 影响 。 基 于 上 述 原 因 ， 将 缺失 值 用 0 代 蔡 既 可 以 保留 现 有 数据 ， 也 不 需要 对 优化 算 
法 进行 修改 。 此 外 ， 该 数据 集中 的 特征 取 值 一 般 不 为 0， 因 此 在 某 种 意义 上 说 它 也 满足 “特殊 值 ” 
这 个 要 求 。 

预 处 理 中 做 的 第 二 件 事 是 ， 如 末 在 测试 数据 集中 发 现 了 一 条 数据 的 类 别 标签 已 经 缺失 ， 那 么 我 
们 的 简单 做 法 是 将 该 条 数据 丢 奔 。 这 是 因为 类 别 标签 与 特征 不 同 ， 很 难 确 定 采 用 某 个 合适 的 值 来 奉 
换 。 采 用 Logistic 回 归 进 行 分 类 时 这 种 做 法 是 合理 的 ， 而 如 果 采 用 类 亿 KNN 的 方法 就 可 能 不 太 可 行 。 

原始 的 数据 集 经 过 预 处 理 之 后 保存 成 两 个 文件 : horsecolicTest.txt 和 horsecolic- 
Training .txt。 如 果 想 对 原始 数据 和 预 处 理 后 的 数据 做 个 比较 ， 可 以 在 http://archive.ics.uci. 
edu/ml/datasets/Horse+Colic 浏 览 这 些 数据 。 

现在 我 们 有 一 个 “干净 ”可 用 的 数据 集 和 一 个 不 错 的 优化 算法 ,下 面 将 把 这 些 部 分 融合 在 一 
起 训练 出 一 个 分 类 需 ， 然 后 利用 该 分 类 融 来 预测 病 马 的 生死 问题 。 
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本 章 前 面 儿 节 介 绍 了 优化 算法 ， 但 目前 为 止 还 没有 在 分 类 上 做 任何 实际 答 试 。 使 用 Logistic 
回归 方法 进行 分 类 并 不 需要 做 很 多 工作 , 所 需 做 的 只 是 把 测试 集 上 每 个 特征 回 量 乘 以 最 优化 方法 
得 来 的 回归 系数 ， 再 将 该 乘积 结果 求 和 ， 最 后 输入 到 Sigmoid 困 数 中 即 可 。 如 果 对 应 的 Sigmoid 住 
大 于 0.5 就 预测 类别 标签 为 1 ， 否 则 为 0。 

下 面 看 看 实际 运行 效果 ， 打 开 文 本 编辑 大 并 将 下 列 代 人 码 添加 到 logRegres.py 文 件 中 。 


程序 清单 5-5 ”Logistic 回 归 分 类 的 数 
def classifyVector (inX, weights): 
prob = sigmoid (sum (inX*weights)) 
if prob > 0.5: return 1.0 
else: return 0.0 














def colicTest () : 
frTirain = open('horseColicTraining .txt') 
frTegst = open('horseColicTest .txt') 


trainingSsSet = []; trainingLabels = [|] 
for line in frTrain.readlines () : 
currLine = line.strip() .split('\t') 


lineArr =[] 
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for i in range (21): 
lineArr.append (float (currLine[il])) 
trainingSet .append (lineArr) 
trainingLabels.append (float (currLine{[21])) 
trainWeights = stocGradAscentl1l (array (trainingSet), trainingLabels, 500) 
errorCount = 0; numTestVec = 0.0 
for line in frTest.readlines (): 
numTestVec += 工 .0 
currLine = line.strip() .split('\t') 
lineArr =[] 
for i in range (21): 
lineArr.append (float (currLine[il])) 
if int (classifyVector(larray (lineArr), trainWweights))!= 
int (currLine{[21]): 
errorCount += 1 
errorRate = (float (errorCount) /numTestVec) 
print "the error rate of this test is: %f" 各 errorRate 
return errorRate 


def multiTest () : 
numlests = 10; errorSum=0.0 
for k in range (numTests): 
errorSum += colicTest() 
print "after %d iterations the average error rate is: 
$f" $$ (numTests, errorSum/float (numTests)) 


程序 清单 5-5 的 第 一 个 函数 是 classifyvVector()， 它 以 回归 系数 和 特征 向 量 作为 输入 来 计 
算 对 应 的 Sigmoid 值 。 如 果 Sigmoid 值 大 于 0.5 图 数 返 回 1， 否 则 返回 0。 

接 下 来 的 疯 数 是 colicTest () ， 是 用 于 打开 测试 集 和 训练 集 ， 并 对 数据 进行 格式 化 处 理 的 
国 数 。 该 函数 首先 导入 训练 集 ， 同 前 面 一 样 ， 数 据 的 最 后 一 列 仍然 是 类 别 标签 。 数 据 最 初 有 三 个 
类 别 标签 ， 分 别 代 表 马 的 三 种 情况 :“ 仍 存活 “已 经 死亡 ”和 “已 经 安乐 死 ”。 这 里 为 了 方便 ， 
将 “已 经 死亡 ”和 “已 经 安乐 死 ” 合 并 成 “未 能 存活 ”这 个 标签 。 数 据 导入 之 后 ， 便 可 以 使 用 
国 数 stocGradaAscent1 () 来 计算 回归 系数 向 量 。 这 里 可 以 自由 设 定 迭 代 的 次 数 ， 例 如 在 训练 集 
上 使 用 500 次 迭代 ,实验 结果 表明 这 比 默认 迭代 150 次 的 效果 更 好 。 在 系数 计算 完成 之 后 ， 导 入 测 
试 集 并 计算 分 类 错误 率 。 整 体 看 来 ，colicTest () 具有 完全 独立 的 功能 ， 多 次 运行 得 到 的 结 
可 能 稍 有 不 同 ， 这 是 因为 其 中 有 随机 的 成 分 在 里 面 。 如 果 在 stocGradqAscent1 () 困 数 中 回归 系 
数 已 经 完全 收敛 ， 那 么 结 采 才 将 是 确定 的 。 

最 后 一 个 因数 是 multiTest () ， 其 功能 是 调用 男 数 colicTest ()10 次 并 求 结 果 的 平均 值 。 
下 面 看 一 下 实际 的 运行 效果 ， 在 Python 提 示 符 下 输入 : 

>>> reload (logRegres) 

<module 'logRegres' from 'logRegres.py'> 

>>> logRegres.multiTest () 

the error rate of this test is: 0.358209 


the error rate of this test is: 0.432836 
the error rate of this test is: 0.373134 
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the error rate of this test is: 0.298507 
the error rate of this test is: 0.313433 
after 10 iterations the average error rate is: 0.353731 


从 上 面 的 结果 可 以 看 到 ，10 次 迭代 之 后 的 平均 错误 率 为 35%。 事 实 上 ， 这 个 结果 并 不 差 ， 因 | 
为 有 30% 的 数据 缺失 。 当 然 ， 如 果 调 整 col1icTest() 中 的 迭代 次 数 和 stochGradAscent1() 中 
的 步 长 ， 平 均 错 误 率 可 以 降 到 20% 左 右 。 第 7 章 中 我 们 还 会 再 次 使 用 到 这 个 数据 集 。 











5.4 本章 小 结 


Logistic 回 归 的 目的 是 寻找 一 个 非 线 性 函数 Sigmoid 的 最 佳 拟 合 参数 ， 求 解 过 程 可 以 由 最 优化 
算法 来 完成 。 在 最 优化 算法 中 ,最 常用 的 就 是 梯度 上 升 算 法 ， 而 标 度 上 升 算 法 又 可 以 简化 为 随机 
梯度 上 升 算 法 。 

随机 檐 度 上 升 算 法 与 标 度 上 升 算法 的 效 末 相当 , 但 占用 更 少 的 计算 资源 。 此 外 ， 随 机 梯度 上 
升 是 一 个 在 线 算 法 , 它 可 以 在 新 数据 到 来 时 就 完成 参数 更 新 ,而 不 需要 和 草 新 读 取 整个 数据 集 来 进 
行 批 处 理 运 算 。 

机 各 学 习 的 一 个 重要 问题 就 是 如 何 处 理 缺 失 数 据 。 这 个 问题 没有 标准 答案 , 取决 于 实际 应 用 
中 的 知 求 。 现 有 一 些 解决 方案 ， 每 种 方案 痢 各 有 优 缺 后 。 

下 一 半 将 介绍 与 Logistic 回 归 类 似 的 为 一 种 分 类 算法 : 文 持 回 量 机 ， 它 被 认为 是 目前 最 好 的 
现成 的 算法 之 一 






































广 持 问 星 机 


本 章 内 容 

口 简单 介绍 支持 问 量 机 

口 利用 SMO 进 行 优化 

口 利用 核 函 数 对 数据 进行 空间 转换 
口 将 SVM 和 其 他 分 类 需 进 行 对 比 


“由 于 理解 支持 向 量 机 ( Support Vector Machines，SVM ) 需要 掌握 一 些 理论 知识 ， 而 这 对 于 
读者 来 说 有 一 定 难度 ， 于 是 建议 读者 直接 下 载 LIBSVM 使 用 。” 我 发 现 ， 在 介绍 SVM 时 ， 不 止 一 
本 书 都 采用 了 以 上 这 种 模式 。 本 书 并 不 打算 沿用 这 种 模式 。 我 认为 , 如 采 对 SVM 的 理论 不 其 了解 
就 去 阅读 其 产品 级 C++ 人 代码， 那么 读 慌 的 难度 很 大 。 但 如 有 果 将 产品 级 代码 和 速度 提升 部 分 剥离 出 
去 ， 那 么 代码 就 会 变 得 可 控 ， 或 许 这 样 的 代码 就 可 以 读 懂 了。 

有 些 人 认为 ,SVM 是 最 好 的 现成 的 分 类 需 , 这 里 说 的 “现成 ” 指 的 是 分 类 天 不 加 修改 即 可 下 
接 使 用 。 同 时 ， 这 就 意味 着 在 数据 上 应 用 基本 形式 的 SVM 分 类 融 台 可 以 得 到 低 错 误 率 的 结 采 。 
SVM 能 够 对 训练 集 之 外 的 数据 点 做 出 很 好 的 分 类 决策 。 

本 章 首先 讲述 SVM 的 基本 概念 ， 书 中 会 引入 一 些 关 键 术 语 。SVM 有 很 多 实现 ， 但 是 本 章 只 
关注 其 中 最 流行 的 一 种 实现 ， 即 序列 最 小 优化 ”( Sequential Minimal Optimization，SMO ) 算法 。 
在 此 之 后 ， 将 介绍 如 何 使 用 一 种 称 为 核 函 数 ( kernel ) 的 方式 将 SVM 扩 展 到 更 多 数据 集 上 。 最 后 
会 回顾 第 1 革 中 手写 识别 的 例子 ， 并 考察 其 能 否 通 过 SVM 来 提高 识别 的 效 末 。 


6.1 基于 最 大 间 隅 分 隔 效 据 















































文 持 问 量 机 
优点 : 泛 化 错误 率 低 ， 计 算 开销 不 大 ， 结 果 易 解释 。 
缺点 : 对 参数 调节 和 核 函 数 的 选择 敏感 ， 原 始 分 类 器 不 加 修改 仅 适用 于 处 理 二 类 问题 。 
适用 数据 类 型 : 数值 型 和 标 称 型 数据 。 





J 一 种 求解 文 持 向 量 机 二 次 规划 的 算法 。 一 一 译 者 注 
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在 介绍 SVM 这 个 主题 之 前 ， 先 解释 几 个 概念 。 考 虑 图 6-1 中 A-D 共 4 个 方 框 中 的 数据 点 分 布 ， 
一 个 问题 就 是 ， 能 否 夯 出 一 条 直线 将 圆 形 点 和 方形 点 分 开 呢 ?” 先 考虑 图 6-2 方 框 A 中 的 两 组 数据 ， 
它们 之 间 已 经 分 隅 得 足够 开 ， 因此 很 容易 就 可 以 在 图 中 面 出 一 条 直线 将 两 组 数据 点 分 开 。 在 这 种 
情况 下 ,这 组 数据 被 称 为 线性 可 分 ( linearly separable ) 数据 。 读 者 和 完 不 必 担 心 上 述 假设 是 否 过 于 
完美 ， 稍 后 当 百 线 不 能 将 数据 点 分 开 时 ， 我 们 会 对 上 述 假设 做 一 些 修 改 。 
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图 6-1 4 个 线性 不 可 分 的 数据 集 


上 述 将 数据 集 分 隔 开 来 的 直线 称 为 分 隔 超 平 面 ( separating hyperplane )。 在 上 面 给 出 的 例子 
中 ， 由 于 数据 点 都 在 二 维 平 面 上 ， 所 以 此 时 分 隔 超 平面 就 只 是 一 条 直线 。 但是， 如 果 所 给 的 数据 
集 是 三 维 的 ， 那 么 此 时 用 来 分 隔 数 据 的 就 是 一 个 平面 。 显 而 易 见 ， 更 高 维 的 情况 可 以 依 此 类 推 。 
如 果 数 据 集 是 1024 维 的 , 那么 就 需要 一 个 1023 维 的 某 某 对 象 来 对 数据 进行 分 隔 。 这 个 1023 维 的 某 
某 对 象 到 底 应 该 叫 什 么 ?NMr1 维 呢 ? 该 对 象 被 称 为 超 平 面 (hyperplane ), 也 就 是 分 类 的 决策 边界 。 
分 布 在 超 平面 一 侧 的 所 有 数据 都 属于 某 个 类 别 ， 而 分 布 在 另 一 侧 的 所 有 数据 则 属于 另 一 个 类 别 。 

我 们 和 希望 能 采用 这 种 方式 来 构建 分 类 需 , 即 如 果 数 据点 离 决 策 边 界 越 远 , 那么 其 最 后 的 预测 
结果 也 就 越 可 信 。 考 虑 图 6-2 框 B 到 框 D 中 的 三 条 直线 ， 它 们 都 能 将 数据 分 隔 开 ， 但 是 其 中 哪 一 条 
最 好 呢 ? 是 否 应 该 最 小 化 数据 点 到 分 隔 超 平面 的 平均 距离 来 求 最 佳 直 线 ? 如果 是 那样 , 图 6-2 的 B 
和 C 框 中 的 直线 是 否 真 的 承 比 D 杠 中 的 直线 好 呢 ? 如 末 这 样 做 ， 是 不 是 有 点 寻找 最 佳 拟 合 直线 的 
感觉 ? 是 的 ， 上 述 做 法 确实 有 点 像 直 线 拟 合 , 但 这 并 非 最 佳 方案 。 我 们 希望 找到 离 分 隔 超 平 面 最 
近 的 点 ,确保 它们 离 分 隔 面 的 距离 尽 可 能 远 。 这 里 点 到 分 隔 面 的 距离 被 称 为 间隔 ”( margin )。 我 
们 希望 间隔 尽 可 能 地 大 , 这 是 因为 如 果 我 们 犯错 或 者 在 有 限 数 据 上 训练 分 类 各 的 话 , 我 们 希望 分 






























































J 本 书 中 有 两 个 间隔 的 概念 : 一 个 是 点 到 分 隔 面 的 距离 ， 称 为 点 相对 于 分 隔 面 的 间隔 ; 为 一 个 是 数据 集中 所 有 点 到 
分 隔 面 的 最 小 间隔 的 2 倍 ， 称 为 分 类 大 或 数据 集 的 间 阳 。 一 般 论文 书籍 中 所 提 到 的 “间隔 ”多 指 后 者 。SVM 分 类 
伪 是 要 找 最 大 的 数据 集 间 隅 。 书 中 没有 特意 区 分 上 述 两 个 概念 ， 请 根据 上 下 文理 解 。 一 一 译 者 注 
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类 带 尺 可 能 健壮 。 
支持 向 量 ( support vector ) 就 是 离 分 隔 超 平面 最 近 的 那些 点 。 接 下 来 要 试看 最 大 化 文 持 问 量 
到 分 隔 面 的 距离 ， 需 要 找到 此 问题 的 优化 求解 方法 。 
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图 6-2 A 框 中 给 出 了 一 个 线性 可 分 的 数据 集 ，B、C、DD 框 中 各 日 给 出 了 一 条 可 以 将 两 
类 数据 分 开 的 二线 


6.2 寻找 最 大 间隔 


如 何 求解 数据 集 的 最 佳 分 隔 直 线 ? 先 来 看 看 图 6-3。 分隔 超 平面 的 形式 可 以 写成 wx+b。 要 计 
算 点 A 到 分 隔 超 平面 的 距离 ， 就 必须 给 出 点 到 分 隔 面 的 法 线 或 垂 线 的 长 度 ， 该 值 为 
wiA+b|/ | |w| | 。 这 里 的 常数 bp 类 似 于 Logistic 回 归 中 的 截 距 w,。 这 里 的 向 量 w 和 常数 b 一 起 描述 了 
所 给 数据 的 分 隔 线 或 超 平面 。 接 下 来 我 们 讨论 分 类 器 。 

函数 间隔 
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图 6-3 ”点 A 到 分 隔 平 面 的 距离 就 是 该 点 到 分 隔 面 的 法 线 长 度 
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6.2.1 分 类 器 水 解 的 优化 问题 


本 面 已 经 提 到 了 分 类 各 , 但 还 没有 介绍 它 的 工作 原理 。 理解 其 工作 原理 将 有 助 于 理解 基于 优 
化 问题 的 分 类 右 求 解 过 程 ,。 输 入 数据 给 分 类 各 会 输出 一 个 类 别 标签 , 这 相当 于 一 个 类 似 于 Sigmoid 
的 函数 在 作用 。 下 面 将 使 用 类 似 海 维 赛 德 阶 跃 函数 ( 即 单位 阶 跃 函数 ) 的 函数 对 wx+tb 作 用 得 到 
f (ws+b) ， 其 中 当 u<0 时 ftu) 输 出 -1， 反 之 则 输出 +1。 这 和 前 一 章 的 Logistic 回 归 有 上 所 不 同 ,那里 
的 类 别 标签 是 0 或 1。 

这 里 的 类 别 标签 为 什么 采用 -1 和 +1， 而 不 是 0 和 1 呢 ? 这 是 由 于 -1 和 +1 仅 仅 相 差 一 个 符号 ， 
方便 数学 上 的 处 理 。 我们 可 以 通过 一 个 统一 公 陈 来 表示 间隔 或 者 数据 点 到 分 阳 超 平面 的 距离 ， 同 
时 不 必 担 心 数据 到 底 是 属于 -1 还 是 +1 类 。 

当 计 算数 据点 到 分 隔 面 的 距离 并 确定 分 隔 面 的 放置 位 置 时 ， 间 隔 通 过 labpbel * (wx+b) 来 
计算 ， 这 时 就 能 体现 出 -1 和 +1 类 的 好 处 了 。 如 果 数 据点 处 于 正方 向 ( 即 +1 类 ) 并 且 离 分 隔 超 平 
面 很 远 的 位 置 时 ，w'x+b 会 是 一 个 很 大 的 正 数 ， 同 时 1abel* (wx+b) 也 会 是 一 个 很 大 的 正 数 。 而 
如 有 果 数 据点 处 于 希 方 回 ( -1 类 ) 并 且 离 分 隔 超 平面 很 远 的 位 置 时 ， 此 时 由 于 类 别 标签 为 -1， 则 
label * (wx+p) 仍然 是 一 个 很 大 的 正 数 。 

现在 的 目标 就 是 找 出 分 类 融 定 义 中 的 w 和 b。 为 此 , 我 们 必须 找到 具有 最 小 间隔 的 数据 点 ， 而 
这 些 数据 点 也 就 是 前 面 提 到 的 文 持 回 量 。 一 旦 找到 具有 最 小 间隔 的 数据 点 , 我们 就 需要 对 该 间隔 
最 大 化 。 这 就 可 以 写作 : 









































arg max [oa ‘(w' x+D)): 种 | 
和 和 | 

百 接 求 解 上 述 问题 相当 困难 , 所 以 我 们 将 它 转换 成 为 为 一 种 更 容易 求解 的 形式 。 首先 考 察 一 下 
上 式 中 大 括 写 内 的 部 分 。 由 于 对 乘积 进行 优化 是 一 件 很 讨 大 的 事情 , 因此 我 们 要 做 的 是 固定 其 中 一 
个 因子 而 最 大 化 其 他 因子 。 如 果 令 所 有 支持 问 量 的 lapel* (wx+b) 午 为 1， 那 么 驶 可 以 通过 求 
| Iw| | 的 最 大 值 来 得 到 最 终 解 。 但 是 , 并 非 所 有 数据 点 的 lapbel* (wx+b) 痢 等 于 1， 只 有 那些 离 分 
隅 超 平面 最 近 的 点 得 到 的 值 才 为 1!。 而 离 超 平面 越 远 的 数据 点 ， 其 label* (wx+b) 的 值 也 就 越 大 。 

在 上 述 优化 问题 中 , 给 定 了 一 些 约束 条 件 然后 求 最 优 值 , 因此 该 问题 是 一 个 之 约束 条 件 的 优 
化 问题 。 这 里 的 约束 条 件 就 是 label* (wxz+b) 三 1.0。 对 于 这 类 优化 问题 ， 有 一 个 非常 著名 的 求 
解 方法 ， 即 拉 格 明日 乘 子 法 。 通 过 引入 拉 格 明日 乘 子 ,， 我 们 就 可 以 基于 约束 条 件 来 表述 原来 的 问 
题 。 由 于 这 里 的 约束 条 件 都 是 基于 数据 点 的 , 因此 我 们 就 可 以 将 超 平面 写成 数据 点 的 形式 。 于是， 
优化 日 标 函 数 最 后 可 以 写成 : 

















到 1 过 , ; 
max >》_0—= > label®™ .label? .a, “a | 和 
“ | 


i, j=l 





( label* (wxz+b) 被 称 为 点 到 分 隔 面 的 函数 间隔 ，label* (wx + 了 Dp): 





< 称 为 点 到 分 隔 面 的 几何 间隔。 一 译 者 注 


wl 


人 @) 尖 括 号 表示 x 和 x 两 个 向 量 的 内 积 。 一 一 译 者 注 
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其 约束 条 件 为 : 
QC 宇 0， 和 ya label =0 
至 此 ,一 切 都 很 完美 , 但 是 这 里 有 个 假设 : 数据 必须 100% 线 性 可 分 。 目 前 为 止 ， 我 们 知道 
几乎 所 有 数据 都 不 那么 “干净”。 这 时 我 们 就 可 以 通过 引入 所 谓 松 弛 交 量 ( slack variable )， 来 允 
许 有 些 数 据点 可 以 处 于 分 隔 面 的 错误 一 侧 。 这 样 我 们 的 优化 目标 就 能 保持 仍然 不 变 , 但 是 此 时 新 
的 约束 条 件 则 变 为 : 











C 二 w>0， 和 > wii:labelo =0 
1 一 | 


这 里 的 常数 c 用 于 控制 “最 大 化 间隔 ”和 “保证 大 部 分 点 的 函数 间隔 小 于 1.0” 这 两 个 目标 的 
权重 。 在 优化 算法 的 实现 代码 中 ， 和 常数 c 是 一 个 参数 ， 因 此 我 们 就 可 以 通过 调节 该 参数 得 到 不 同 
的 结果 。 一 旦 求 出 了 所 有 的 alpha， 那 么 分 隔 超 平面 就 可 以 通过 这 些 alpha 来 表达 。 这 一 结论 十 分 
直接 ，SVM 中 的 主要 工作 就 是 求解 这 些 alpha。 

要 理解 刚才 给 出 的 这 些 公式 还 需要 大 量 的 知识 。 如 果 你 有 兴趣 , 我 强烈 建议 去 查阅 相关 的 教 
材 " ”， 以 获得 上 述 公式 的 推导 细节 。 











6.2.2 SVM 应 用 的 一 般 框 染 


在 第 1 章 中 ,我 们 定义 了 构建 机 器 学 习 应 用 的 一 般 步 又 ,但 是 这 些 步 又 会 随机 器 学 习 任务 或 
算法 的 不 同 而 有 所 改变 ， 因 此 有 必要 在 此 探讨 如 何在 本 章 中 实现 它们 。 





SVM 的 一 般 流程 
(1) 收集 数据 : 可 以 使 用 任意 方法 。 
(2) 准备 数据 : 需要 数值 型 数据 。 
(3) 分 析 数 据 : 有 助 于 可 视 化 分 隔 超 平面 。 
(4) 训练 算法 : SVM 的 大 部 分 时 间 都 源 自 训练 ， 该 过 程 主 要 实现 两 个 参数 的 调 优 。 
(5) 测试 算法 : 十 分 简单 的 计算 过 程 就 可 以 实现 。 
(6) 使 用 算法 : 几乎 所 有 分 类 问题 都 可 以 使 用 SVM， 值得 一 提 的 是 ，SVM 本 身 是 一 个 二 类 
分 类 器 ， 对 多 类 问题 应 用 SVM 需 要 对 代码 做 一 些 修改 。 


到 目前 为 止 , 我 们 已 经 了解 了 一 些 理论 知识 , 我 们 当然 希望 能 够 通过 编程 ,在 数据 集 上 将 这 
些 理论 付 诸 实 践 。 下 一 市 将 介绍 一 个 简单 但 很 强大 的 实现 算法 。 


GD Christopher M. Bishop, Pattern Recognition and Machine Learning (Springer, 2006). 
@) Bernhard Schlkopf and Alexander J. Smola, Learning with Kernels: Support Vector Machines, Reeularization, Optimization, 
and Beyond (MIT Press, 2001). 
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接 下 来 , 我 们 根据 6.2.1 市 中 的 最 后 两 个 式 子 进行 优化 ， 其 中 一 个 是 最 小 化 的 目标 函数 , 一 个 
是 在 优化 过 程 中 必须 避 循 的 约束 条 件 。 不 久之 前 ， 人 们 还 在 使 用 二 次 规划 求解 工具 ( quadratic 
solver ) 来 求解 上 述 最 优化 问题 ， 这 种 工具 是 一 种 用 于 在 线性 约束 下 优化 具有 多 个 变量 的 二 次 日 
标 函 数 的 软件 。 而 这 些 二 次 规划 求解 工具 则 需要 强大 的 计算 能 力 文 撑 , 另外 在 实现 上 也 十 分 复杂 。 
所 有 需要 做 的 围绕 优化 的 事情 就 是 训练 分 类 右 , 一 旦 得 到 alpha 的 最 优 值 , 我 们 就 得 到 了 分 隔 超 平 
面 (2 维 平 面 中 就 是 耳 线 ) 并 能 够 将 之 用 于 数据 分 类 。 

下 面 我 们 就 开始 讨论 SMO 算 法 , 然后 给 出 一 个 简化 的 版 本 , 以 便 读者 能 够 正确 理解 它 的 工作 
流程 。 后 一 区 将 会 给 出 SMO 算 法 的 完整 版 ， 它 比 容 化 版 的 运行 速度 要 快 很 多 。 


























6.3.1 Platt 的 SMO 算法 


1996 年 ，John Platt 发 布 了 一 个 称 为 SMO"* 的 强大 算法 ,用 于 训练 SVM。SMO 表 示 序 列 最 小 优 
化 (Sequential Minimal Optimization )。Platt 的 SMO 算 法 是 将 大 优化 问题 分 解 为 多 个 小 优化 问题 来 
求解 的 。 这 些小 优化 问题 往往 很 容易 求解 , 并 且 对 它们 进行 顺序 求解 的 结果 与 将 它们 作为 整体 来 
求解 的 结果 是 完全 一 致 的 。 在 结 末 完全 相同 的 同时 ，SMO 算 法 的 求解 时 间 短 很 多 。 

SMO 算 法 的 目标 是 求 出 一 系列 apha 和 b， 一 旦 求 出 了 这 些 alpha， 就 很 容易 计算 出 权重 向 量 w 
并 得 到 分 隔 超 平面 。 

SMO 算 法 的 工作 原理 是 : 每 次 循环 中 选择 两 个 alpha 进 行 优 化 处 理 。 一 旦 找到 一 对 合适 的 
alpha， 那 么 就 增 大 其 中 一 个 同时 减 小 另 一 个 。 这 里 所 谓 的 “合适 ”就 是 指 两 个 alpha 必 须要 符合 
一 定 的 条 件 , 条 件 之 一 就 是 这 两 个 alpha 必 须要 在 间隔 边界 之 外 , 而 其 第 二 个 条 件 则 是 这 两 个 alpha 
还 没有 进行 过 区 间 化 处 理 或 者 不 在 边界 上 。 


6.3.2 ”应 用 简化 版 SMO 算法 处 理 小 规模 数据 集 


Platt SMO 算 法 的 完整 实现 需要 大 量 代 码 。 在 接 下 来 的 第 一 个 例子 中 ， 我 们 将 会 对 算法 进行 
简化 处 理 ， 以 便 了 解 算 法 的 基本 工作 思路 ,之 后 绸 基于 简化 版 给 出 完整 版 。 简 化 版 代码 虽然 量 少 
但 执行 速度 慢 。Platt SMO 算 法 中 的 外 循环 确定 要 优化 的 最 佳 alpha 对 。 而 简化 版 却 会 跳 过 这 一 部 
分 ， 首先 在 数据 集 上 遍历 每 一 个 alpha， 然 后 在 璋 下 的 alpha 集 合 中 随机 选择 为 一 个 alpha， 从 而 构 
建 alpha 对 。 这 里 有 一 点 相当 重要 ， 就 是 我 们 要 同时 改变 两 个 alpha。 之 所 以 这 样 做 是 因为 我 们 有 
一 个 约束 条 件 : 


























D0% :label® =0 





由 于 改变 一 个 alpha 可 能 会 导致 该 约束 条 件 失 效 ， 因 此 我 们 总 是 同时 改变 两 个 alpha。 


GD John C. Platt “Using Analytic QP and Sparseness to Speed Training of Support Vector Machines” in Advances in Neural 
Information Processing Systems 11, M. S. Kearns, S. A. Solla, D. A. Cohn, eds(MIT Press, 1999), 937--03. 
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为 此 ,我 们 将 构建 一 个 辅助 函数 ， 用 于 在 某 个 区 间 范 围 内 随机 选择 一 个 整数 。 同 时 ,我 们 也 
需要 为 一 个 辅助 消 数 , 用 于 在 数值 太 大 时 对 其 进行 调整 。 下 面 的 程序 清单 给 出 了 这 两 个 函数 的 实 
现 。 读 者 可 以 打开 一 个 文本 编辑 胡 将 这 些 代码 加 入 到 svmMLiA.py 文 件 中 。 


程序 清单 6-1 SMO 算 法 中 的 辅助 商 数 
def loadDataSsSet (fileName): 

dataMat = []; labelMat = [ 

fr = open (fileName) 

for line in fr.readlines(): 
lineArr = line.strip() .split('\t') 
dataMat .append([float (lineArr[0]), float (lineArr[1])]) 
labelMat .append (float (lineArr[2])) 

return dataMat, labelMat 





def selectJrand (i,m): 
j=i 


while (j==i): 
Jj] = int (random.uniform(0,m)) 
return J 





def clipAlpha (aj,H,L): 


if a] > H: 
a] = HH 
if L > aj: 
a] = 


return aj 


在 testSet.txt 文 件 中 保存 了 图 6-3 所 给 出 的 数据 。 接 下 来 ， 我 们 就 将 在 这 个 文件 上 应 用 SMO 算 
法 。 程 序 清单 6-1 中 的 第 一 个 机 数 就 是 我 们 所 区 知 的 1oadDatSet () 函数 ， 该 限 数 打开 文件 并 对 
其 进行 逐 行 解 林 ， 从 而 得 到 每 行 的 类 标签 和 整个 数据 矩阵 。 

下 一 个 函数 selectJrand() 有 两 个 参数 值 ， 其 中 i 是 第 一 个 alpha 的 下 标 ,，m 是 所 有 alpha 的 数 
目 。 只 要 函数 值 不 等 于 输入 值 1， 函 数 就 会 进行 随机 选择 。 

最 后 一 个 辅助 函数 就 是 clipAlpha () ， 它 是 用 于 调整 大 于 H 或 小 于 的 alpha 值 。 尽 管 上 述 3 
个 辅助 函数 本 号 做 的 事情 不 多 ,但 在 分 类 右 中 却 很 有 用 处 。 

在 输入 并 保存 程序 清单 6-1 中 的 代码 之 后 ， 运 行 如 下 命令 : 

>>> import svmMLiA 

>>> dataArr,labelArr = svmMLiA.1loadDataSet ('testSet.txt') 

>>> labelArr 


[-1.0, -1.0, 1.0, -1.0, 1.0, 1.0, 1.0, -1.0, -1.0, -1.0, -1.0, -1.0, -1.0, 
1 0 


可 以 看 得 出 来 ， 这 里 采用 的 类 别 标签 是 -1 和 1， 而 不 是 0 和 1。 
上 述 工 作 完成 之 后 ， 就 可 以 使 用 SMO 算 法 的 第 一 个 版 本 了 。 
该 SMO 函 数 的 伪 代 人 码 大 致 如下: 
创建 一 个 alpha 向 量 并 将 其 初始 化 为 0 向 量 
当 和 迭代 次 数 小 于 最 大 迭代 次 数 时 (外 循环 ) 

对 数据 集中 的 每 个 数据 向 量 ( 内 循环 ): 
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如 果 该 数据 向 量 可 以 被 优化 : 

随机 选择 另外 一 个 数据 向 量 

同时 优化 这 两 个 向 量 

如 果 两 个 向 量 都 不 能 被 优化 ， 退 出 内 循环 

如 果 所 有 人 向量 都 没 被 优化 ， 增 加 和 迭代 数目 ， 继 续 下 一 次 循环 
程序 清单 6-2 中 的 代码 是 SMO 算 法 的 一 个 有 效 版 本 。 在 Python 中 ， 如 果 某 行 以 \ 符 号 结束 , 那 

么 就 意味 着 该 行 语句 没有 结束 并 会 在 下 一 行 延 续 。 下面 的 代码 当中 有 很 多 很 长 的 语句 必须 要 分 成 
多 行 来 写 。 因 此 , 下面 的 程序 中 使 用 了 多 个 \ 符 号。 打开 文件 svmMLiA.py 之 后 输入 如 下 程序 清单 
中 的 代码 。 
程序 清单 6-2 ”简化 版 SMO 算 法 


def smoSimple (dataMatIn, classLabels, C, toler, maxlter): 

















dataMatrix = mat (dataMatIn); labelMat = mat (classLabels) .transpose() 
b= 0; m,n = shape (dataMatrix) 
alphas = mat (zeros ((m,1))) 
iter = 0 
while (iter < maxIter): 
alphaPairsChanged = 0 如 果 alpha 可 以 更 
for i in range (m) : 改进 入 优化 过 程 
fxXi = float (multiply (alphas, labelMat) .T*\ 
(dataMatrix*dataMatrix[i,:] .TT)) + b 


Ei = fXi - float (labelMat [i]) 
(labelMat [i]*Ei < -toler) and (alphas[i] < C)) or \ 
((labelMat [i]*Ei > toler) and \ 
(alphas [i] > 0)): 
] = selectJrand(i,m) 
fX]j = float (multiply (alphas,1labelMat) .T*\ 
(dataMatrix*dataMatrix[j,:] .T)) + b 
Ej = fXj - float (labelMat[j]) 随机 选择 第 二 
alphaIold = alphas [i] .copy(); 个 alpha 
alphaJold = alphas[]] .copy (); 
if (labelMat[i] != labelMat [j]): 
L = max(0, alphas[j] - alphas [i]) 保证 alpha 在 0 
H = min(C, C + alphas[j] - alphas{[i]) 与 C 之 间 
else: 
L = max(0, alphas[j] + alphas[i] - CI) 
H = min(C, alphas[j] + alphas{[i]) 
if L==H: print "L==H"; Continue 
eta = 2.0 * ee 
dataMatrix[i,:]*dataMatrix[i .TT - 
Oe we T 
if eta >= 0: print "eta>=0"; continue 对 半 进 行 修改 , 修 人 
alphas[j] -= labelMat[j]*(Ei - Ej)/eta 改 量 与 相同 , 但 
alphas [j] = clipAlpha (alphas[j],H,L) 方向 相反 
if (abs(alphas[j] - alphaJold) < 0.00001): Print \ 
"] not moving enough",; ee 
alphas[i] += labelMat [j]*labelMat [i]*\ 
(alphaJold - alphas [Jj]) < 一 
bl = b - Ei- labelMat [i]*(alphas[i] -alphaIold)*\ 


Ev 
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dataMatrix[i,:]*dataMatrix[i,:].T - \ 
labelMat [j]*(alphas[j] -alphaJold)*\ 
dataMatrix[i,:]*dataMatrix[]j],:] .TT 

b2 = b - Ej- labelMat [i]*(alphas[i]-alphaIold)*\ 
dataMatrix[i,:]*dataMatrix[j,:] .T - \ 
labelMat [j]* (alphas[j] -alphaJold)*\ 设置 弟 数 项 
dataMatrix[j,:]*dataMatrix[j,:].T 

if (0 < alphas[i]) and (C > alphas[i]): b = bl 

elif (0 < alphas[j]) and (C > alphas[j]): b = b2 

else: b = (bl + b2)/2.0 


alphapairsChanged += 1 
print "iter: %d i:%d, pairs changed %$d" $$ \ 
(iter,i,alphapPpairsChanged) 
if (alphapairsChanged == 0): iter += 1 
else: iter = 0 
print "iteration number: %d'" % iter 
return b,alphas 


这 个 函数 比较 大 ， 或 许 是 我 所 知道 的 本 书 中 最 大 的 一 个 孙 数 。 该 函数 有 5 个 输入 参数 ， 分 别 
是 : 数据 集 、 类 别 标签 、 第 数 c、 容 错 率 和 退出 前 最 大 的 循环 次 数 。 在 本 书 ， 我们 构建 洱 数 时 采 
用 了 通用 的 接口 , 这样 就 可 以 对 算法 和 数据 源 进行 组 合 或 配对 人 处理 。 上 述 哨 数 将 多 个 列表 和 输入 
参数 转换 成 NumPy 和 矩阵 ,这 样 就 可 以 简化 很 多 数学 处 理 操 作 。 巾 于 转 置 了 类 别 标签 ， 因 此 我 们 得 
到 的 就 是 一 个 列 回 量 而 不 是 列表 。 于 是 类 别 标签 癌 量 的 每 行 元 素 都 和 数据 矩阵 中 的 行 一 一 对 应 。 
我 们 也 可 以 通过 矩阵 dataMatIn 的 shape 属 性 得 到 和 常数 n 和 n。 最 后 ， 我 们 就 可 以 构建 一 个 alpha 列 
矩阵 ， 和 矩阵 中 元 素 都 初始 化 为 0， 并 建立 一 个 iter 变 量 。 该 变量 存储 的 则 是 在 没有 任何 alpha 改 变 
的 情况 下 遍历 数据 集 的 次 数 。 当 该 变量 达到 输入 值 mnaxIter 时 ， 涵 数 结束 运行 并 退出 。 

每 次 循环 当中 ， 将 alphaPairsChanged 先 设 为 0， 然 后 再 对 整个 集合 顺序 遍历 。 变 量 
alphaPairsChanged 用 于 记 录 alpha 是 否 已 经 进行 优化 。 当 然 ， 在 循环 结束 时 就 会 得 知 这 一 点 。 
首先 ，EXi 能 够 计算 出 来 ， 这 就 是 我 们 预测 的 类 别 。 然 后 ， 基 于 这 个 实例 的 预测 结 末 和 真实 结 
的 比 对 ， 束 可 以 计算 误差 Bi。 如 果 误 差 很 大 ， 那 么 可 以 对 该 数据 实例 所 对 应 的 alpha 全 进行 优化 。 
对 该 条 件 的 测试 处 于 上 述 程序 清单 的 @@ 处 。 在 if 语 句 中 ,不 管 是 正 间隔 还 是 负 间 隔 都 会 被 测试 。 
并 且 在 该 if 语 句 中 , 也 要 同时 检查 alpha 值 ， 以 保证 其 不 能 等 于 0 或 C。 由 于 后 面 alpha 小 于 0 或 大 于 
C 时 将 被 调整 为 0 或 C, 所 以 一 旦 在 该 if 语句 中 它们 等 于 这 两 个 值 的 话 , 那么 它们 就 已 经 在 “边界 ” 
上 了 ， 因 而 不 再 能 够 减 小 或 增 大 ， 因 此 也 就 不 值得 再 对 它们 进行 优化 了 。 

接 下 来 ， 可 以 利用 程序 清单 6-1 中 的 辅助 函数 来 随机 选择 第 二 个 alpha 值 ， 即 alpha[j] @。 
同样 ， 可 以 采用 第 一 个 alpha 值 ( alpha[i] ) 的 误差 计算 方法 ,来 计算 这 个 alpha 值 的 误差 。 这 个 
过 程 可 以 通过 copy () 的 方法 来 实现 ,因此 稍 后 可 以 将 新 的 alpha 值 与 老 的 alpha 值 进行 比较 。 Python 
则 会 通过 引用 的 方式 传递 所 有 列表 ， 所 以 必须 明确 地 告知 Python 要 为 alphaIold 和 和 alphaJold 
分 配 新 的 内 存 ; 否则 的 话 ， 在 对 新 值 和 旧 值 进行 比较 时 ,我 们 就 看 不 到 新 旧 值 的 变化 。 之 后 我 们 
开始 计算 L 和 H 合 ,它们 用 于 将 alpha[j 1 调整 到 0 到 c 之 间 。 如 果 L 和 相等， 就 不 做 任何 改变 ， 直 
接 执 行 cont inue 语 名 o 这 在 Python 中 ， 则 意味 着 本 次 循 环 结束 直接 运行 下 一 次 f or 的 循环 。 

Eta 是 alpha[j] 的 最 优 修改 量 ， 在 那个 很 长 的 计算 代码 行 中 得 到 。 如 果 eta 为 0， 那 就 是 说 
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需要 退出 for 循 环 的 当前 迭代 过 程 。 该 过 程 对 真实 SMO 算 法 进行 了 人 简化 处 理 。 如 果 eta 为 0, 那么 
计算 新 的 alpha[j] 束 比较 腑 烦 了 ,这 里 我 们 就 不 对 此 进行 详细 的 介绍 了 。 有 需要 的 读者 可 以 阅 
读 Platt 的 原文 来 了 解 更 多 的 细 方 。 现 实 中 ,这 种 情况 并 不 津 发 生 ， 因 此 忽略 这 一 部 分 通 肖 也 无 伤 
大 雅 。 于是， 可 以 计算 出 一 个 新 的 alpha[j], 然后 利用 程序 清单 6-1 中 的 辅助 函数 以 及 L 与 H 值 对 
其 进行 调整 。 

然后 ， 就 是 需要 检查 alpha[j] 是 否 有 轻微 改变 。 如 果 是 的 话 ， 束 退出 for 循 环 。 然 后 ， 
alpha[i] 和 alpha[j] 同 样 进行 改变 , 里 然 改 变 的 大 小 一 样 , 但 是 改变 的 方 癌 正好 相反 《〈 即 如 果 
一 个 增加 ， 那 么 男 外 一 个 减少 ) @。 在 对 alpha[i] 和 alpha[j] 进 行 优化 之 后 ,给 这 两 个 alpha 
值 设置 一 个 常数 项 bp@。 

最 后 ， 在 优化 过 程 结 束 的 同时 ， 必 须 确 保 在 合适 的 时 机 结束 循环 。 如 果 程 序 执行 到 for 循 环 
的 最 后 一 行 都 不 执行 continue 语 句 ， 那 么 就 已 经 成 功 地 改变 了 一 对 alpha， 同 时 可 以 增加 
alphaPairsChanged 的 值 。 在 for 循 环 之 外 ， 需 要 检查 alpha 值 是 否 做 了 更 新 ， 如 果 有 更 新 则 将 
iter 设 为 0 后 继续 运行 程序 。 只 有 在 所 有 数据 集 上 所 历 maxILer 次 ， 且 不 再 发 生 任何 alpha 修 改 之 
后 ， 程 序 才 会 俘 止 并 退出 while 循 环 。 

为 了 解 实际 效果 ， 可 以 运行 如 下 命令 : 

>>> b,alphas = svmMLiA.smoSimple (dataArr, labelArr, 0.6, 0.001, 40) 
运行 后 输出 类 似 如 下 结 


iteration number: 29 

] not moving enough 

iteration number: 30 

iter: 30 i:17, pairs changed 1 
] not moving enough 

iteration number: 0 

] not moving enough 

iteration number: 1 


上 述 运 行 过 程 需 要 几 分 钟 才 会 收敛 。 一 旦 运行 结束 ， 我 们 可 以 对 结果 进行 观察 : 


>>> b 
matrix([[-3.84064413]]) 


我 们 可 以 直接 观察 alpha 算 阵 本 身 ， 但 是 其 中 的 零 元 素 太 多 。 为 了 观察 大 于 0 的 元 系 的 数量 ， 可 以 
输入 如 下 命令 : 

>>> alphas [alphas>0] 

matrix([[ 0.12735413, 0.24154794, 0.36890208]|]) 


由 于 SMO 算 法 的 随机 性 ， 读 者 运行 后 所 得 到 的 结果 可 能 会 与 上 述 结果 不 同 。 
alphas [alphas>0] 命 令 是 数组 过 滤 array filtering ) 的 一 个 实例 ， 而 且 它 只 对 NumPy 类 型 有 用 
却 并 不 适用 于 Python 中 的 正则 表 ( regular list )。 如 采 输 入 alpha>0, 那么 就 会 得 到 一 个 布尔 数组 ， 
并 且 在 不 等 式 成 立 的 情况 下 ,其 对 应 值 为 正确 的 。 于 是 , 在 将 该 布尔 数组 应 用 到 原始 的 矩阵 当中 
时 ， 驶 会 得 到 一 个 NumPy 和 矩阵 ， 并 且 其 中 矩阵 仅仅 包含 大 于 0 的 值 。 

为 了 得 到 支持 问 量 的 个 数 ， 输 入 : 
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>>> Shape (alphas [alphas>0j]) 
为 了 解 哪 些 效 据点 是 文 持 回 量 ， 输 入 : 


>>> for i in range(100): 
if alphas[i] >0.0: print dataArr[i],1labelArrl[il] 


得 到 的 结果 类 似 如 下 : 


[4.6581910000000004, 3.507396] -1.0 
[3.4570959999999999， -0.082215999999999997] -1.0 
[6.0805730000000002, 0.41888599999999998] 1.0 


在 原始 数据 集 上 对 这 些 支 持 疝 量 画 峰之 后 的 结果 如 图 6-4 所 示 。 





用 圆圈 标记 的 支持 问 量 





0 2 4 6 8 10 12 





图 6-4 ”示例 数据 集 上 运行 位 化 版 ?MO 算法 后 得 到 的 结果 ， 包 括 夯 疾 的 支持 问 量 与 分 隔 超 平面 


利用 前 面 的 设置 ,我 运行 了 10 次 程序 并 取 其 平均 时 间 。 结果 是 ,这 个 过 程 在 一 台 性 能 较 差 的 
笔记 本 上 需要 14.5 秒 。 虽 然 结 采 看 起 来 并 不 是 太 差 ， 但 是 别 筷 了 这 只 是 一 个 仅 有 100 个 点 的 小 规 
模 数 据 集 而 已 ,在 更 大 的 数据 集 上 , 收敛 时 间 会 变 得 更 长 .在 下 一 节 中 , 我们 将 通过 构建 完整 SMO 
算法 来 加 快 其 运行 速度 。 


6.4 利用 完整 Platt SMO 算法 加 速 优 化 


在 几 百 个 点 组 成 的 小 规模 数据 集 上 , 简化 版 SMO 算 法 的 运行 是 没有 什么 问题 的 , 但 是 在 更 大 
的 数据 集 上 的 运行 速度 就 会 变 慢 。 刚 才 已 经 讨论 了 从 化 版 SMO 算 法 ， 下 面 我 们 丈 讨 论 完 整 版 的 
Platt SMO 算 法 。 在 这 两 个 版 本 中 ， 实 现 alpha 的 更 改 和 代数 运算 的 优化 环 市 一 模 一 样 。 在 优化 过 
程 中 ， 唯 一 的 不 同 就 是 选择 alpha 的 方式 。 完 整 厂 的 Platt SMO 算 法 应 用 了 一 些 能 够 提速 的 局 发 方 
法 。 或 许 读者 已 经 意识 到 ， 上 一 市 的 例子 在 执行 时 存在 一 定 的 时 间 提 升 空间 。 

Platt SMO 算 法 是 通过 一 个 外 循环 来 选择 第 一 个 alpha 值 的 ， 并 且 其 选择 过 程 会 在 两 种 方式 之 
间 进 行 交 督 : 一 种 方式 是 在 所 有 数据 集 上 进行 单 这 扫描 , 为 一 种 方式 则 是 在 非 边 界 alpha 中 实现 单 
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而 所 谓 非 边界 alpha 指 的 就 是 那些 不 等 于 边界 0 或 C 的 alpha 值 。 对 整个 数据 集 的 扫描 相当 
容易 ， 而 实现 非 边 界 alpha 值 的 扫描 时 ， 首 先 需 要 建立 这 些 alpha 值 的 列表 ， 然 后 再 对 这 个 表 进 行 





遍历 。 同 时 ， 该 步骤 会 跳 过 那些 已 知 的 不 会 改变 的 alpha 令 。 


在 选择 第 一 个 alpha 值 后 ， 算 法 会 通过 一 个 内 循环 来 选择 第 二 个 alpha 值 。 在 优化 过 程 中 ， 会 
通过 最 大 化 步 长 的 方式 来 获得 第 二 个 alpha 值 。 在 简化 版 SMO 算 法 中 ,我 们 会 在 选择 j 之 后 计算 错 
误 率 Ej。 但 在 这 里 ， 我 们 会 建立 一 个 全 局 的 缓存 用 于 保存 误差 值 ， 并 从 中 选择 使 得 步 长 或 者 说 











Ei-Ej 最 大 的 alpha 值 。 


在 讲述 改进 后 的 代码 之 前 ， 我 们 必须 要 对 上 市 的 代码 进行 清理 。 下 面 的 程序 清单 中 包含 1 个 
用 于 清理 代码 的 数据 结构 和 3 个 用 于 对 E 进 行 绥 存 的 辅助 函数 。 我 们 可 以 打开 一 个 文本 编辑 带 ， 输 





入 如 下 代码 。 


程序 清单 6-3 ”完整 版 Platt SMO 的 支持 函数 


class optStruct: 


def 


def 


def 


def init (self,dataMatIn, classLabels, C, toler): 
self.X = dataMatIn 
self.labelMat = classLabels 
Self..C = © 
self.tol = toler 
self.m = shape (dataMatIn) [0] 
self.alphas = mat (zeros((self.m,1))) 


self.bp = 0 9 误差 缓存 
self.eCache = mat (zeros((self.m,2))) 


calcEk (oS, Kk): 

fXk = float (multiply (oS.alphas,os.labelMat) .T*\ 
(OS.X*OoOS.X[k,:] .1T)) + os.b 

Ek = fXk - float(oSs.labelMat [kl]) 

return Ek 


.9 内 循环 中 的 启发 式 方法 


selectJ(i, oS, Ei): 
maxK = -1l1; maxDeltaE = 0; EJ] = 0 
oSs.eCache[i] = [1,Ei] 
validEcacheList = nonzero(oSs.eCache[:,0] .A)[0] 
if (len(validEcacheList)) > 1: 
for k in validEcacheList: 
It k == i: continue 


Ek = calcEk (oS, Kk) 
deltaE = abs (Ei - Ek) 
if (deltaE > maxDeltaBE) : 局 选择 具有 最 大 
maxK = k; maxDeltaE = deltaE; 了] = Ek 步 ] 
return maxK, E] 
else: 
] = selectJrand(i, oS8.m) 
Ej] = calcEk (oS, J) 
return JjJ, EJ] 


updateEk (oS, k): 
Ek = calcEk (oS, Kk) 
oS.eCachel[lk] = [1,Ek] 
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首要 的 事情 就 是 建立 一 个 数据 结构 来 保存 所 有 的 重要 值 , 而 这 个 过 程 可 以 通过 一 个 对 象 来 完 
成 。 这 里 使 用 对 象 的 目的 并 不 是 为 了 面 癌 对象 的 编程 ,而 只 是 作为 一 个 数据 结构 来 使 用 对 象 。 在 
将 值 传 给 孙 数 时 , 我 们 可 以 通过 将 所 有 数据 移 到 一 个 结构 中 来 实现 , 这 样 就 可 以 省 挥手 工 输入 的 
厅 烦 了 。 而 此 时 ， 数据 就 可 以 通过 一 个 对 和 象 来 进行 传递 。 实 际 上 ， 当 完成 其 实现 时 ， 可 以 很 容易 
通过 Python 的 字典 来 完成 。 但 是 在 访问 对 象 成 员 变 量 时 ， 这 样 做 会 有 更 多 的 手工 输入 操作 ， 对 比 
一 下 myobject.X 和 myobject['X'] 就 可 以 知道 这 一 点 。 为 达到 这 个 目的 , 需要 构建 一 个 仅 包 含 
init 方 法 的 optstruct 类 。 该 方法 可 以 实现 其 成 员 变 量 的 填充 。| 除 了 增加 了 一 个 mx2 的 矩阵 成 
员 变 量 ecache 之 外 @， 这 些 做 法 和 简化 版 SMO 一 模 一 样 。ecache 的 第 一 列 给 出 的 是 scache 是 
否 有 歼 的 标志 位 ， 而 第 二 列 给 出 的 是 实际 的 E 值 。 

对 于 给 定 的 alpha 值 ， 第 一 个 辅助 函数 calcEk () 能 够 计算 E 值 并 返回 。 以 前 ， 该 过 程 是 采用 内 舰 
的 方式 来 完成 的 , 但 是 由 于 该 过 程 在 这 个 版 本 的 SMO 算 法 中 出 现 频繁 , 这 里 必须 要 将 其 单独 擒 出 来 。 

下 一 个 函数 selectJ() 用 于 选择 第 二 个 alpha 或 者 说 内 循环 的 alpha 值 @。 回 想 一 下 ， 这 里 的 
目标 是 选择 合适 的 第 二 个 alpha 值 以 保证 在 每 次 优化 中 采用 最 大 步 长 。 该 函数 的 误差 值 与 第 一 个 
alpha 值 Ei 和 下 标 i 有 关 。 首 先 将 输入 值 Ei 在 缓存 中 设置 成 为 有 效 的 。 这 里 的 有 效 (valid ) 意味 关 
它 已 经 计算 好 了 。 在 scache 中 , 代码 nonzero(os.ecache[:,0].A) [0] 构 建 出 了 一 个 非 零 表 。 
NumPy 咕 数 nonzero () 返回 了 一 个 列表 ， 而 这 个 列表 中 包含 以 输入 列表 为 日 录 的 列表 值 ， 当 然 
该 者 可 以 猜 得 到 ， 这 里 的 值 并 非 零 。nonzezro () 语 句 返 回 的 是 非 零 E 值 所 对 应 的 alpha 值 ， 而 不 是 
E 值 本 身 。 程 序 会 在 所 有 的 值 上 进行 循环 并 选择 其 中 使 得 改变 最 大 的 那个 值 合 。 如 果 这 是 第 一 次 
循环 的 话 , 那么 就 随机 选择 一 个 alpha 值 。 当 然 , 也 存在 有 许多 更 复杂 的 方式 来 处 理 第 一 次 循环 的 
情况 ， 而 上 述 做 法 就 能 够 满足 我 们 的 目的 。 

程序 清单 6-3 的 最 后 一 个 辅助 函数 是 updateEk () ， 它 会 计算 误差 值 并 存 人 缓存 当中 。 在 对 
alpha 值 进行 优化 之 后 会 用 到 这 个 值 。 

程序 清单 6-3 中 的 代码 本 里 的 作用 并 不 大 ,但 是 当 和 优化 过 程 及 外 循环 组 合 在 一 起 时 ， 丈 能 
组 成 强大 的 SMO 算 法 。 

接 下 来 将 简单 介绍 一 下 用 于 寻找 决策 边界 的 优化 例 程 。 打开 文本 编辑 融 , 添加 下 列 清 单 中 的 
代码 。 在 前 面 ， 读 者 已 经 看 到 过 下 列 代 码 的 男 外 一 种 形式 。 


程序 清单 6-4 ”完整 Platt SMO 算 法 中 的 优化 例 程 


def innerL (i, oS): 第 二 个 alpha 选 择 中 的 启发 式 方 法 
Ei calcEk (oS, 1) 


if ((oS.labelMat [i]*Ei < -oS.tol) and (oS.alphas[i] < oS8.C)) or\ 
((oS.labelMat [i] *E1i > oS.tol) and (oS.alphas[i] > 0)): 
Jj,Ej] = selectJ(i, oS8, Ei) 
alphalIold = oS.alphas[i] .copy(); alphaJold = oS.alphas[j] .copy(); 




























































































if (oS.labelMat [i] != oS.labelMat []j ) : 

L = max(0, oS.alphas[j] - oS.alphas[il]) 

H = min(oS.C, oS.C + os.alphas []j - oS.alphas [il]) 
else: 

L max(0, oS.alphas[j] + oS.alphas[i] - oS8.cC) 


min(oSs.Cc, oS.alphas[j] + oS.alphas [il]) 
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if L==H: print "L==H"; return 0 


eta = 2.0 * oS.X[i,:]*oS.X[j,:] .T - oS.X[i,:]*oS.X[i,:] .T - \ 
OS.X[j,:]*oS.X[j,:].T 
if eta >= 0: print "eta>=0"; return 0 
oS.alphas[j] -= oS.labelMat [j]*(Ei - Ej)/eta 
oS.alphas[j] = clipAlpha (oSs.alphas{[j],H,L) 9 更 新 误差 缓存 
updateEk (oS, Jj) 
if (abs(oS.alphas[j] - alphaJold) < 0.00001): 
print "] not moving enough"; return 0 
oS.alphas[i] += oS.labelMat[j]*oS.1labelMat [i]*\ 
(alphaJold - oS.alphas{[j]) .9 更 新 误差 缓存 
updateEk (oS, 1i) 


bl = oS.b - Ei- oS.labelMat [i]*(oS.alphas [i] -alphaIold)*\ 


OS.X[i,:]*oS.X[i,:].T - oS.labelMat [j]*\ 
(oS .alphas []] -alphaJold)*oS.X[i,:]*oS.X[j,:] .7T 
b2 = oS.b - Ej- oS.labelMat [i]*(oS.alphas [i] -alphaIold)*\ 
OS.X[i,:]*oS.X[j,:].T - oS.labelMat [j]*\ 
(oS .alphas []j] -alphaJold)*oS.X[j,:]*oS.X[j,:] .7T 
if (0 < oS.alphas[i]) and (oS.C > oS.alphas[i]): oS.b = bl 
elif (0 < oS.alphas[j]) and (oS.C > oS.alphas[j]): oS.b = b2 
else: oS.b = (bl + b2)/2.0 
return 1 


else: return 0 
程序 清单 6-4 中 的 代码 几乎 和 程序 清单 6-2 中 给 出 的 smosimple() 男 数 一 借 一 样 , 但 是 这 里 的 
代码 已 经 使 用 了 自己 的 数据 结构 。 该 结构 在 参数 os 中 传递 。 第 二 个 重要 的 修改 就 是 使 用 程序 清单 
6-3 中 的 selectJ() 而 不 是 selectJrand() 来 选择 第 二 个 alpha 的 值 @。 最 后 ， 在 alpha 值 改变 时 
更 新 Ecache@, 程序 清单 6-5 将 给 出 把 上 述 过 程 打 包 在 一 起 的 代码 片段 。 这 就 是 选择 第 一 个 alpha 
值 的 外 循环 。 打 开 文 本 编辑 侣 将 下 列 代 人 码 加 入 到 svmMLiA.py 文 件 中 。 


程序 清单 6-5 ”完整 版 Platt SMO 的 外 循环 代码 


def SmoP (dataMatIin, classLabels, C, toler, maxIter, kTup=('lin', 0)): 











oS = optstruct (mat (dataMatIn) ,mat (classLabels) .transpose(),C,toler) 
iter = 0 
entireSet = True; alphaPairsChanged = 0 


while (iter < maxIter) and ((alphapPpairsChanged > 0) or (entireSet)): 
alphapairsChanged = 0 


if entireSet: 
for i in range (oS .m) : 6 遍历 所 有 的 值 
alphapPpairsChanged += innerL(i,os) 
print "fullSet, iter: $d i:%d, pairs changed %$d" $\ 
(iter,i,alphaprpairsChanged) 


is 了 nn 
elSse: 


nonBoundIs = nonzero((oS.alphas.A > 0) * (oS.alphas.A < C)) [0j 
for i in nonBoundIs: 
alphaPairsChanged += innerL(i,os) 
print "non-bound, iter: $d i:%d, pairs changed $d" $ \ 
(iter,i,alphaprairsChanged) 
iter += 1 
if entireSet: entireSet = False 
elif (alphaPpairsChanged == 0): entireSet = True 
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print "iteration number: %d" 委 iter 
return oS.b,oS.alphas 


程序 清单 6-5 给 出 的 是 完整 版 的 Platt SMO 算 法 ， 其 输入 和 函数 smoSimple () 完全 一 样 。 困 数 
一 开始 构建 一 个 数据 结构 来 容纳 所 有 的 数据 ， 然 后 需要 对 控制 函数 退出 的 一 些 变量 进行 初始 化 。 
整个 代码 的 主体 是 while 循 环 , 这 与 smoSsimple() 有 些 类 似 ,但 是 这 里 的 循环 退出 条 件 更 多 一 些 。 
当 从 代 次 数 超过 指定 的 最 大 值 ， 或 者 届 历 整个 集合 都 未 对 任意 alpha 对 进行 修改 时 ， 就 退出 循环 。 
这 里 的 maxIter 变 量 和 图 数 smosimple() 中 的 作用 有 一 点 不 同 ， 后 者 当 没 有 任何 alpha 发 生 改 变 
时 会 将 整个 集合 的 一 次 遍历 过 程 计 成 一 次 迭代 ,而 这 里 的 一 次 迭代 定义 为 一 次 循环 过 程 ， 而 不 管 
该 循环 具体 做 了 什么 事 。 此 时 ， 如 果 在 优化 过 程 中 存在 波动 就 会 停止 ， 因 此 这 里 的 做 法 优 于 
smoSimple() 哺 数 中 的 计数 方法 。 

while 循 环 的 内 部 与 smosimple() 中 有 所 不 同 ， 一 开始 的 for 循 环 在 数据 集 上 过 历任 意 可 能 
的 alpha@@。 我 们 通过 调用 innerL () 来 选择 第 二 个 alpha， 并 在 可 能 时 对 其 进行 优化 处 理 。 如 果 有 
任意 一 对 alpha 值 发 生 改 变 ， 那 么 会 返回 1。 第 二 个 for 循 环 裔 历 所 有 的 非 边界 alpha 值 ， 也 就 是 不 
在 边界 0 或 cC 上 的 值 @。 

接 下 来 ,我 们 对 for 循 环 在 非 边 界 循环 和 完整 遍历 之 间 进 行 切换 ， 并 打印 出 迭代 次 数 。 最 后 
程序 将 会 运 回 常 数 b 和 alpha 值 。 

为 观察 上 述 执行 效果 ， 在 Python 提示 符 下 输入 如 下 命令 : 

>>> dataArr, labelArr = svmMLiA.loadDataSet ('testSet .txt') 

>>> b,alphas = svmMLiA.smopPp (dataArr, labelArr, 0.6, 0.001, 40) 

non-bound, iter: 2 i:54, pairs changed 0 

non-bound, iter: 2 i:55, pairs changed 0 

iteration number: 3 

fullset，iter: 3 i:0, pairs changed 0 


fullSet, iter: 3 i:1, pairs changed 0 
fullSet, iter: 3 i:2, pairs changed 0 


类 似 地 ， 读 者 也 可 以 检查 b 和 多 个 alpha 的 值 。 那么 ， 相 对 于 简化 版 SMO 算 法 ， 上 述 方法 是 否 
更 快 ? 基于 前 面 给 出 的 设置 在 我 自己 简陋 的 笔记 本 上 运行 10 次 算法 , 然后 求 平均 值 , 最 后 得 到 的 
结果 是 0.78 秒 。 而 在 同样 的 数据 集 上 ，smosimple() 国 数 平均 需要 14.$ 秒 。 在 更 大 规模 的 数据 集 
上 结果 可 能 更 好 ， 男 外 也 存在 很 多 方法 可 以 进一步 提升 其 运行 速度 。 

如 果 修 改 容错 值 结 果 会 怎样 如 果 改 变 c 的 值 又 如 何 呢 ? 在 6.2 节 末尾 兽 经 粗略 地 提 到 ， 常 数 
c 给 出 的 是 不 同 优化 问题 的 权重 。 和 常数 c 一 方面 要 保障 所 有 样 例 的 间隔 不 小 于 1.0， 另 一 方面 又 要 
使 得 分 类 间隔 要 尽 可 能 大 ， 并 且 要 在 这 两 方面 之 间 平 衡 。 如 果 c 很 大 ， 那 么 分 类 器 将 力图 通过 分 
隔 超 平面 对 所 有 的 样 例 都 正确 分 类 。 这 种 优化 的 运行 结果 如 图 6-$ 所 示 。 与 图 6-4 相 比 ， 会 发 现 图 
6-5 中 的 支持 向 量 更 多 。 如 果 回 想 一 下 ， 就 会 记得 图 6-4 实 际 来 自 于 简化 版 算法 ， 该 算法 是 通过 随 
机 的 方式 选择 alpha 对 的 。 这 种 简单 的 方式 也 可 以 工作 , 但 是 效果 却 不 如 完整 版 本 好 , 后 者 覆盖 了 
整个 数据 集 。 读 者 可 能 还 认为 选 出 的 支持 向 量 应 该 始终 最 接近 分 隔 超 平面 。 给 定 c 的 设置 ， 图 中 
画 圈 的 支持 向 量 就 给 出 了 满足 算法 的 一 种 解 。 如 果 数 据 集 非 线性 可 分 ， 就 会 发 现 支持 向 量 会 在 超 
平面 附近 聚集 成 团 。 
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用 圆圈 标记 的 支持 问 量 


-4 





-8.5 0 2 4 6 8 10 12 


图 6-5 在 数据 集 上 运行 完整 版 SMO 算 法 之 后 得 到 的 支持 向 量 ， 其 结果 与 图 6-4 稍 有 不 同 
读者 可 能 会 想 , 刚才 我 们 伦 了 大 量 时 间 来 计算 那些 alpha 值 , 但 是 如 何 利 用 它们 进行 分 类 呢 ? 
这 不 成 问题 ， 首 先 必须 基于 alpha 值 得 到 超 平面 ， 这 也 包括 了 w 的 计算 。 下 面 列 出 的 一 个 小 函数 可 
以 用 于 实现 上 述 任务 : 


def calcWs (alphas,dataArr,classLabels): 


XxX = mat (dataArr); labelMat = mat (classLabels) .transpose() 
m,n = shape (xX) 
WwW = Zeros((n,1)) 


for i in range (m): 
w += multiply(alphas [i]*labelMat [i] ,X[i,:].T) 
return w 


上 述 代 码 中 最 重要 的 部 分 是 for 循 环 ， 虽 然 在 循环 中 实现 的 仅仅 是 多 个 数 的 乘积 。 看 一 下 前 
面 计算 出 的 任何 一 个 alpha, 就 不 会 忘记 大 部 分 alpha 值 为 0。 而 非 零 apha 所 对 应 的 也 就 是 支持 向 量 。 
虽然 上 述 for 循 环 过 历 了 数据 集中 的 所 有 数据 ， 但 是 最 终 起 作用 的 只 有 文 持 回 量 。 由 于 对 w 计 算 
坚 无 作用 ， 所 以 数据 集 的 其 他 数据 点 也 就 会 很 容易 地 被 舍 莽 。 

为 了 使 用 前 面 给 出 的 函数 ， 输 入 如 下 命令 : 

>>> WS=SVmML1IA.calLcWS (alphas,dataArr, labelArr) 


array([[ 0.65307162] ， 
[-0.17196128]1]) 


现在 对 数据 进行 分 类 人 处理 ， 比 如 对 说 第 一 个 数据 点 分 类 ， 可 以 这 样 输 入 : 
>>> datMat=mat (dataArr) 


>>> datMat [0] *mat (ws) +b 
matrix([[-0.92555695]]) 


如 果 该 值 大 于 0,， 那么 其 属于 1 类 ; 如 来 该 值 小 于 0， 那么 则 属于 -1 类 。 对 于 数据 点 0， 应 该 得 到 的 
类 别 标签 是 -1， 可 以 通过 如 下 的 命令 来 确认 分 类 结 末 的 正确 性 : 


>>> labelArr [0] 
- 工 .0 
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还 可 以 继续 检查 其 他 数据 分 类 绪 采 的 正确 性 : 

>>> datMat [2] xmat (ws) +b 

matrix([[ 2.30436336]|]) 

>>> labelArr [2] 

工 .0 

>>> datMat [1] xmat (ws) +b 
matrix([[-1.36706674]]) 

>>> labelArr[1] 

- 工 .0 


读者 可 将 该 结果 与 图 6-5 进 行 比较 以 确认 其 有 效 性 。 

我 们 现在 可 以 成 功 训练 出 分 类 大 了 ，, 我 想 指出 的 就 是 , 这 里 两 个 类 中 的 数据 点 分 布 在 一 条 下 
线 的 两 边 。 看 一 下 图 6-1， 大 概 就 可 以 得 到 两 类 的 分 隔 线 形状 。 但 是 ， 倘 奢 两 类 数据 点 分 别 分 布 
在 一 个 圆 的 内 部 和 外 部 , 那么 会 得 到 什么 样 的 分 类 面 呢 ? 下 一 人 将 会 介绍 一 种 方法 对 分 类 俘 进 行 
修改 ， 以 说 明 类 别 区 域 形 状 不 同情 况 下 的 数据 集 分 隅 问题 。 


6.5 在 复杂 数据 上 应 用 核 函 效 


考虑 图 6-6 给 出 的 数据 ， 这 有 点 像 图 6-1 的 方 框 C 中 的 数据 。 前 面 我 们 用 这 类 数据 来 描述 非 线 
性 可 分 的 情况 。 显 而 多 见 ， 在 该 数据 中 存在 某 种 可 以 识别 的 模式 。 其 中 一 个 问题 就 是 , 我 们 能 否 
像 线 性 情况 一 样 ， 利 用 强大 的 工具 来 捕捉 数据 中 的 这 种 模式 ?显然 , 答案 是 肯定 的 。 接 下 来 , 我 
们 就 要 使 用 一 种 称 为 核 函 数 ( kernel ) 的 工具 将 数据 转换 成 易于 分 类 顺 理 解 的 形式 。 本 节 首 先 解 
释 核 函数 的 概念 ,并 介绍 它们 在 文 持 癌 量 机 中 的 使 用 方法 ,然后 ,介绍 一 种 称 为 径 向 基 吕 数 ( radial 
bias function ) 的 最 流行 的 核子 数 。 最 后 ， 将 该 核 隐 数 应 用 于 我 们 前 面 得 到 的 分 类 兹 。 






































核 方 法 中 的 非 线 性 可 分 数据 


1.5 


0.5 


0.0 


-1.0 





Ds = 0 -0.5 0.0 0.5 1.0 1.5 


图 6-6 ”这 个 数据 在 二 维 平面 中 很 难 用 一 条 直线 分 隔 ， 不 过 很 明显 ， 这 里 存在 分 隅 方形 
点 和 圆 形 点 的 模式 
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6.5.1 利用 核 函 效 将 效 据 映 射 到 局 维 空间 


在 图 6-6 中 ， 数 据点 处 于 一 个 圆 中 ， 人 类 的 大 脑 能 够 意识 到 这 一 点 。 然 而 ， 对 于 分 类 需 而 言 ， 
它 只 能 识别 分 类 带 的 结果 是 大 于 0 还 是 小 于 0。 如 果 只 在 x 和 y 轴 构成 的 坐标 系 中 插入 直线 进行 分 类 
的 话 ， 我 们 并 不 会 得 到 理想 的 结果 。 我 们 或 许可 以 对 圆 中 的 数据 进行 某 种 形式 的 转换 ， 从 而 得 到 
某 些 新 的 变量 来 表示 数据 。 在 这 种 表示 情况 下 ， 我们 就 更 容易 得 到 大 于 0 或 者 小 于 0 的 测试 结 
在 这 个 例子 中 , 我 们 将 数据 从 一 个 特征 空间 转换 到 为 一 个 特征 空间 。 在 新 空间 下 , 我 们 可 以 很 容 
匈 利 用 已 有 的 工具 对 数据 进行 处 理 。 数学 家 们 喜欢 将 这 个 过 程 称 之 为 从 一 个 特征 空间 到 另 一 个 特 
征 空间 的 映射 。 在 通常 情况 下 ， 这 种 映射 会 将 低 维 特征 空间 映射 到 高 维 空间 。 

这 种 从 某 个 特征 空间 到 另 一 个 特征 空间 的 映射 是 通过 核 函 数 来 实现 的 。 旋 者 可 以 把 核 国 数 想 
象 成 一 个 包装 器 (wrapper ) 或 者 是 接口 ( interface )， 它 能 把 数据 从 某 个 很 难处 理 的 形式 转换 成 
为 另 一 个 较 容 易 处 理 的 形式 。 如 采 上 述 特征 空间 映射 的 说 法 听 起 来 很 让 人 迷糊 的 话 , 那么 可 以 将 
它 想象 成 为 另外 一 种 距离 计算 的 方法 。 前 面 我 们 提 到 过 距离 计算 的 方法 。 距 离 计算 的 方法 有 很 多 
种 ,不 久 我 们 也 将 看 到 ， 核 限 数 一 样 具 有 多 种 类 型 。 经 过 空间 转换 之 后 ， 我们 可 以 在 高 维 空间 中 
解决 线性 问题 ， 这 也 就 等 价 于 在 低 维 空间 中 解决 非 线 性 问题 。 

SVM 优 化 中 一 个 特别 好 的 地 方 就 是 ， 所 有 的 运算 都 可 以 写成 内 积 (inner product， 也 称 点 积 ) 
的 形式 。 癌 量 的 内 积 指 的 是 两 个 向 量 相 乘 ,之 后 得 到 单个 标量 或 者 数值 。 我 们 可 以 把 内 积 运 算 蔡 
换 成 核 图 数 ， 而 不 必 做 窗 化 处 理 。 将 内 积 蔡 换 成 核 困 数 的 方式 被 称 为 核 技巧 〈kernel trick ) 或 者 
核 “ 变 电 ”( kernel substation )。 

核 函 数 并 不 仅仅 应 用 于 支持 癌 量 机 ,很 多 其 他 的 机 带 学 习 算 法 也 都 用 到 核 孙 数 。 接 下 来 ,我 
们 将 要 来 介绍 一 个 流行 的 核 匈 数 ， 那 就 是 径 回 基 核 子 数 。 


6.5.2 人 径 癌 基 核 函数 


径 癌 基 哨 数 是 SVM 中 芝 用 的 一 个 核 咀 数 。 径 疝 基 函 数 是 一 个 采用 向 量 作为 日 变量 的 函数 , 能 
够 基于 问 量 距离 运算 输出 一 个 标量 。 这 个 距离 可 以 是 从 <0,0> 疝 量 或 者 其 他 疝 量 开始 计算 的 距离 。 
接 下 来 ,我 们 将 会 使 用 到 径 癌 基 函 数 的 高 斯 版 本 ,其 具体 公式 为 : 


2 
K(x,y) = "| | 


其 中 ，o 是 用 户 定义 的 用 于 确定 到 达 率 〈reach ) 或 者 说 函数 值 跌落 到 0 的 速度 参数 。 

上 述 高 斯 核 孙 数 将 数据 从 其 特征 空间 映射 到 更 高 维 的 空间 , 具体 来 说 这 里 是 映射 到 一 个 无 穷 
维 的 空间 。 关 于 无 穷 维 空间 ， 谈 者 目前 不 需要 太 担 心 。 高 斯 核 旺 数 只 是 一 个 利用 的 核 吨 数 ， 使 用 
者 并 不 需要 确切 地 理解 数据 到 底 是 如 何 表 现 的， 而 且 使 用 高 斯 核 隙 数 还 会 得 到 一 个 理想 的 结 
在 上 面 的 例子 中 ,数据 点 基本 上 都 在 一 个 加 内 。 对 于 这 个 例子 ,我 们 可 以 直接 检查 原始 数据 ， 并 
意识 到 只 要 上 度量 数据 点 到 圆心 的 距离 即 可 。 然而 ,如果 碰 到 了 一 个 不 是 这 种 形式 的 新 效 据 集 ， 那 
么 我 们 就 会 陷入 困境 。 在 该 数据 集 上 , 使 用 高 斯 核 函数 可 以 得 到 很 好 的 结 采 。 当 然 , 该 限 数 也 可 
以 用 于 许多 其 他 的 数据 集 ， 并 且 也 能 得 到 低 错误 率 的 结 米 。 
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如 果 在 svsmMLiA.py 文 件 中 添加 一 个 函数 并 稍 做 修改 ,那么 我 们 就 能 够 在 已 有 代码 中 使 用 核 
图 数 。 首 先 ， 打 开 svMLiA.py 代 码 文件 并 输入 图 数 kernelTrans ()。 然 后 ， 对 optstruct 类 进 
行 修改 ， 得 到 类 似 如 下 程序 清单 6-6 的 代码 。 


程序 清单 6-6 核 转 换 子 数 


def kernelTrans (X, A, kTup): 
m,n = shape (xX) 
K = mat (zeros ((m,1))) 


if kTup[0]=='lin': K =X * A.T 
elif kTup[0]=='rbf': 
for ] in range (m) : 
deltaRow = X[j,:] - A 
K[j] = deltaRow*deltaRow.T -9 元 素 间 的 除法 
K = exp(K /(-1L*kTup[I]*x2) ) 
else: raise NameError('Houston We Have a Problem -- \ 


That Kernel is not recognized') 
return K 


class optStruct: 
def init (self,dataMatIn, classLabels, C, toler, kTup): 
self.X = dataMatIn 
self.labelMat = classLabels 
SelfC = C 
self.tol = toler 
self.m = Shape (dataMatIn) [0] 
self.alphas = mat (zeros((self.m,1))) 
self.b = 0 
self.eCache = mat (zeros((self.m,2))) 
self.K = mat (zeros ((self.m,self.m))) 
for i In range (self.m): 
self.K[:,i] = kernelTrans (self .XxX, self.X[i,:], kTup) 


我 建议 读者 最 好 看 一 下 optstruct 类 的 新 版 本 。 除了 引入 了 一 个 新 变量 kTup 之 外 , 该 版 本 和 
原来 的 optStruct 一 模 一 样 。 是 下 包含 核 隐 数 言 息 的 元 组 ， 竺 会 j L 我 们 就 能 看 到 它 的 作用 
了 。 在 初始 化 方法 结束 时 ， 和 矩阵 K 先 被 构建 ， 然 后 再 通过 调用 也 数 kernelTrans () 进 行 填充 。 全 
局 的 K 值 只 需 计 算 一 次 。 然 后 ， 当 想 要 使 用 核 亢 数 时 ， 就 可 以 对 它 进 行 调用 。 这 也 省 去 了 很 多 元 
余 的 计算 开销 。 

当 计 算 和 矩阵 KX 时 ， 该 过 程 多 次 调用 了 函数 kernelTrans () 。 该 函数 有 3 个 输入 参数 : 2 个 数值 
型 变量 和 1 个 元 组 。 元 组 kmTrup 给 出 的 是 核 函 数 的 信息 。 元 组 的 第 一 个 参数 是 描述 所 用 核 冰 数 类 型 
的 一 个 字符 串 ， 其 他 2 个 参数 则 都 是 核 也 数 可 能 需要 的 可 选 参数 。 该 函数 首先 构建 出 了 一 个 列 问 
量 ， 人 然后 检查 元 组 以 确定 核子 数 的 类 型 。 这 里 只 给 出 了 2 种 选择 ,但 是 依然 可 以 很 容易 地 通过 湛 
加 elif 语 句 来 扩展 到 更 多 选项 。 

在 线性 核 函 数 的 情况 下 ， 内 积 计 算 在 “所 有 数据 集 ” 和 “数据 集中 的 一 行 ”这 两 个 输入 之 间 
展开 。 在 径 问 基 核 函数 的 情况 下 , 在 for 循 环 中 对 于 矩阵 的 每 个 元 素 计 算 高 斯 是 数 的 值 。 而 在 for 
循环 结束 之 后 ,我 们 将 计算 过 程 应 用 到 整个 向 量 上 去 。 值 得 一 提 的 是 ,在 NumPy 和 矩阵 中 ， 除 法 符 
号 意味 着 对 矩阵 元 素 展 开 计 算 而 不 像 在 MATLAB 中 一 样 计算 矩阵 的 首 @。 
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最 后 ,， 如果 过 到 一 个 无 法 识别 的 元 组 , 程序 就 会 抛 出 寞 肖 ， 因 为 在 这 种 情况 下 不 希望 程序 表 
继续 运行 ， 这 一 点 相当 重要 。 

为 了 使 用 核 晒 数 , 先期 的 两 个 男 数 innerL () 和 calcEk() 的 代码 需要 做 些 修改 , 修改 的 结 
参见 程序 清单 6-7。 本 来 我 并 不 想 这 样 列 出 代码 ， 但 是 重新 列 出 函数 的 所 有 代码 需要 超过 90 行 ， 
我 想 任 何人 都 不 希望 这 样 。 访 者 可 以 二 接 从 下 载 的 源码 中 复制 代码 段 ， 而 不 必 对 修改 片段 进行 手 
工 输入 。 下 面 列 出 的 就 是 修改 的 代码 片段 。 


程序 清单 6-7 ”使 用 核 尊 数 时 需要 对 innexrL () 及 calcEk() 图 数 进行 的 修改 


ijnnerL(): 





eta = 2.0 * OS.K[i,j] - oS.K[i,i] - oS.K[j,j] 


bl = oS.b - Ei- oS.labelMat [i]* (oS.alphas[i]-alphaIold)*oS.K[i,i] -\ 
oS.labelMat [j]* (oS.alphas[j] -alphaJold)*oS.K[i,]j] 
b2 = oS.b - Ej- oS.labelMat [i]* (oS.alphas[i]-alphaIold)*oS.K[i,j]-\ 
oS.labelMat [j]* (oS.alphas[j] -alphaJold)*oS.K[j,]j] 


def calcEk (oS, k): 
fxXxk = float (multiply(oS.alphas,oSs.labelMat) .T*oS.K[:,k] + oS.b) 
Ek = fXk - float (oS.1labelMat [k]) 
return Ek 


你 已 经 了 解 了 如 何在 训练 过 程 中 使 用 核 函 数 , 接 下 来 我 们 就 去 了 解 如 何在 测试 过 程 中 使 用 核 


6.5.3 ”在 测试 中 使 用 核 函数 


接 下 来 我 们 将 构建 一 个 对 图 6-6 中 的 数据 点 进行 有 效 分 类 的 分 类 絮 ， 该 分 类 絮 使 用 了 答 问 基 
核 限 数 。 后 古 报 到 的 和 向 贡 天 有 一 人 用户 定 的 输 入。 首先 ,我 们 需要 确定 它 的 大 小 ,然后 
利用 该 核 孔 数 构建 出 一 个 分 类 絮 。 整 个 测试 函数 将 如 程序 清单 6-8 所 示 。 读 者 也 可 以 打开 一 个 文 
本 编辑 器 ， 并 且 加 入 哨 数 testRbf ()。 


程序 清单 6-8 利用 核 孔 数 进行 分 类 的 径 问 基 测 试 函 数 
def testRbf (K1=1.3) : 
dataArr, labelArr = loadDataSet ('testSetRBF .txt') 
b,alphas = smop (dataArr, labelArr, 200, 0.0001, 10000, ('rbf', k1)) 
datMat=mat (dataArr); labelMat = mat (labelArr) .transpose() 
svIind=nonzero(alphas.A>0) [0] 
svs=datMat [svIind] 


labelsV = labelMat [svIind!]; @@ 构建 支持 向 量 和 矩阵 


6.5 在 复杂 数据 上 应 用 核 函 数 109 


© 


print "there are %d Support Vectors" % shape(sVs) [0] 
m,n = shape (datMat) 


errorCount = 0 

for i in range (m) : 
kernelEval = kernelTrans (sVs,datMat [i,:],('rbf', k1)) 
predict=kernelEval.T * multiply (labelSsV,alphas[lsvIind]) + b 
if sign(predict) !=sign (labelArr[i]): errorCount += 1 


© 


print "the training error rate is: %f" % (float (errorCount)/m) 
dataArr, labelArr = loadDataSet ('testSetRBF2 .七 Xt  ) 

errorCount = 0 

datMat=mat (dataArr); labelMat = mat (labelArr) .transpose() 

m,n = shape (datMat) 

for i in range (m) : 


kernelEval = kernelTrans (sVs,datMat [i,:],('rbf', k1)) 
predict=kernelEval.T * multiply (labelSsV,alphas[lsvIind]) + b 
if sign(predict) !=sign (labelArr[i]): errorCount += 1 


print "the test error rate is: gf" . (float (errorCount)/m) 

上 述 代码 只 有 一 个 可 选 的 输入 参数 ， 该 输入 参数 是 高 斯 径 同 基 清 数 中 的 一 个 用 户 定义 变量 。 
整个 代码 主要 是 由 以 前 定义 的 函数 集合 构成 的 。 自 先 , 程序 从 文件 中 读 入 数据 集 ， 然 后 在 该 数据 
集 上 运行 Platt SMO 算 法 ， 其 中 核 函 数 的 类 型 为 ' rbf 

优化 过 程 结 束 后 ， 在 后 面 的 矩阵 数学 运算 中 建立 了 数据 的 矩阵 副本 ， 并 且 找 出 那些 非 零 的 
从 而 得 到 所 需要 的 文 持 回 量 ; 同时 ， 也 就 得 到 了 这 些 文 持 回 量 和 alpha 的 类 别 标签 但 。 

这 些 值 仅仅 是 需要 分 类 的 值 。 
整个 代码 中 最 重要 的 是 for 循 环 开始 的 那 两 行 ， 它 们 给 出 了 如 何 利用 核 冰 数 进行 分 类 。 首 多 
利用 结构 初始 化 方法 中 使 用 过 的 kernelTrans () 图 数 ， 得 到 转换 后 的 数据 。 然 后 ， 再 用 其 与 前 
面 的 alpha 及 类 别 标签 值 求 积 。 其 中 需要 特别 注意 的 另 一 件 事 是 , 在 这 几 行 代码 中 , 是 如 何 做 到 只 
需要 文 持 问 量 数据 就 可 以 进行 分 类 的 。 除 此 之 外 ， 其 他 数据 部 可 以 耳 接 舍弃 。 

与 第 一 个 for 循 环 相 比 ， 第 二 个 for 循 环 仅仅 只 有 数据 集 不 同 ， 后 者 采用 的 是 测试 数据 集 。 
读者 可 以 比较 不 同 的 设置 在 测试 集 和 训练 集 上 表现 出 的 性 能 。 

为 测试 程序 清单 6-8 的 代码 ， 可 以 在 Python 提示 符 下 输入 命 


>>> reload (svmMLiA) 
<module 'svmMLiA' from 'svmMLiA.pyc'> 
>>> SVvMMLIiIA.testRbf () 





















































fullSsSet, iter: 11 i:497, pairs changed 0 
fullSsSet, iter: 11 i:498, pairs changed 0 
fullSet, iter: 11 i:499, pairs changed 0 
iteration number: 12 

there are 27 Support Vectors 

the training error rate is: 0.030000 

the test error rate is: 0.040000 


你 可 以 尝试 更 换 不 同 的 ki 参数 以 观察 测试 错误 率 、 训 练 错误 率 、 支 持 向 量 个 数 随 k1 的 变化 
情况 。 图 6-7 给 出 了 当 k1 非 常 小 (=0.1 ) 时 的 结 
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RBF kl1=0.10, 85 个 支持 问 量 
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图 6-7 在 用 户 自 定义 参数 kl1 = 0.1 时 的 径 向 基 力 数 。 该 参数 此 时 减少 了 每 个 支持 回 量 
的 有 影响 程度 ， 因 此 需要 更 多 的 支持 问 量 
图 6-7 中 共有 100 个 数据 点 ， 其 中 的 85 个 为 支持 癌 量 。 优 化 算法 发 现 ， 必 须 使 用 这 些 支 持 问 量 
才能 对 数据 进行 正确 分 类 。 这 就 可 能 给 了 读者 径 向 基 函 数 到 达 率 太 小 的 直 党 。 我 们 可 以 通过 增加 
o 来 观察 错误 率 的 变化 情况 。 增 加 o 之 后 得 到 的 男 一 个 结果 如 图 6-8 所 示 。 


RBF kl1=1.30, 27 个 支持 问 量 
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图 6-8 ”在 用 户 自 定义 参数 kl1=1.3 时 的 径 向 基 子 数 。 这 里 的 支持 向 量 个 数 少 于 图 6-7 的 ， 
而 这 些 支 持 向 量 在 决策 边界 周 于 聚集 
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同 图 6-7 相 比 ， 图 6-8 中 只 有 27 个 支持 问 量 ， 其 数目 少 了 很 多 。 这 时 观察 一 下 孙 数 testRbf () 
的 输出 结果 就 会 发 现 ， 此 时 的 测试 错误 率 也 在 下 降 。 该 数据 集 在 这 个 设置 的 某 人 处 存在 着 最 优 值 。 
如 末 降 低 c， 那 么 训练 错误 率 就 会 降低 ,但 是 测试 错误 率 却 会 上 升 。 

文 持 回 量 的 数目 存在 一 个 最 优 值 。 SVM 的 优点 在 于 它 能 对 数据 进行 高 效 分 类 。 如 末 文 持 回 量 
太 少 ， 就 可 能 会 得 到 一 个 很 差 的 决 全 边界 (下 个 例子 会 说 明 这 一 操 ); 如 有 条 文 持 回 量 太 多 ， 也 就 
相当 于 每 次 都 利用 整个 数据 集 进行 分 类 ， 这 种 分 类 方法 称 为 k 近 人 Bb。 

我 们 可 以 对 SMO 算 法 中 的 其 他 设置 进行 随意 地 修改 或 者 建立 新 的 核子 数 。 接 下 来 , 我 们 将 在 

-个 更 大 的 数据 上 应 用 文 持 回 量 机 ， 并 与 以 前 介绍 的 一 个 分 类 融 进 行 对 比 。 


6.6 示例 : 手写 识别 问题 回顾 


考虑 这 样 一 个 假想 的 场景 。 你 的 老板 过 来 对 你 说 :“ 你 写 的 那个 手写 体 识别 程序 非常 好 ,但 
是 它 占 用 的 内 存 太 大 了 。 顾客 不 能 通过 无 线 的 方式 下 载 我 们 的 应 用 (在 写本 书 时 , 无 线 下 载 的 限 
制 容量 为 10OMB， 可 以 肯定 , 这 将 来 会 成 为 笑料 的 。) 我 们 必须 在 保持 其 性 能 不 变 的 同时 , 使 用 更 
少 的 内 存 。 我 呢 , 告诉 了 CEO, 你 会 在 一 周 内 准备 好 , 但 你 到 瓜 还 得 多 长 时 间 才 能 搞定 这 件 事 ?” 
我 不 确定 你 到 底 会 如 何 回答 , 但 是 如 果 想 要 满足 他 们 的 需求 , 你 可 以 考虑 使 用 支持 向 量 机 。 尺 管 
第 2 革 所 使 用 的 KNN 方 法 效 来 不 错 ， 但 是 逢 要 保留 所 有 的 训练 样本 。 而 对 于 支持 向 量 机 而 言 ， 其 
需要 保留 的 样本 少 了 很 多 ( 即 只 保留 文 持 向 量 )， 但 是 能 获得 可 比 的 效 宁 。 





















































示例 : 基于 SVM 的 数字 识别 
(1) 收集 数据 : 提供 的 文本 文件 。 
(2) 准备 数据 : 基于 二 值 图 像 构 造 向 量 。 
(3) 分 析 数 据 : 对 图 像 向 量 进行 目测 。 
(4) 训练 算法 : 采用 两 种 不 同 的 核子 数 , 并 对 径 向 基 核子 数 采 用 不 同 的 设置 来 运行 SMO 算 法 。 
(5) 测试 算法 : 编写 一 个 函数 来 测试 不 同 的 核 函 数 并 计算 错误 率 。 
(6) 使 用 萌 法 : 一 个 图 像 识 别 的 完整 应 用 还 需要 一 些 图 像 处 理 的 知识 , 这 里 并 不 打算 深入 介绍 。 





使 用 第 2 章 中 的 一 些 代 码 和 SMO 算 法 ， 可 以 构建 一 个 系统 去 测试 手写 数字 上 的 分 类 器 。 打 开 
svmMLiA.py 并 将 第 2 章 knn.py 中 的 img2vector () 图 数 复制 过 来 。 然 后 ， 加 入 程序 清单 6-9 中 的 
代码 。 


程序 清单 6-9 ”基于 SVM 的 手写 数字 识别 
def loadImages (QIYName) : 

from os import listdir 
hwLabels = [|] 
trainingFileList = listdir (dirName) 
m = len(trainingFileList) 
trainingMat = zeros((m,1024)) 
for i in range (m) : 
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fileNameStr = trainingFileList [il] 


fileSstr = fileNameStr.split('.') [0] 

classNumSstr = int (filestr.split(' ')[0]) 

if classNumStr == 9: hwLabels.append(-1) 

else: hwLabels.append (1) 

trainingMat [i,:] = img2vector('%s/%s' $ (dirName, fileNameStr)) 


return trainingMat, hwLabels 
def testDigits (kTup=('rbf', 10)): 
dataArr, labelArr = loadImages ('trainingDigits') 
b,alphas = smopPp (dataArr, labelArr, 200, 0.0001, 10000, kTup) 
datMat=mat (dataArr); labelMat = mat (labelArr) .transpose() 
svIind=nonzero(alphas.A>0) [0] 
svs=datMat [svIind|] 
labelSV = labelMat [svIind].; 
print "there are %d Support Vectors" % shape(sVs) [0] 
m,n = shape (datMat) 


errorCount = 0 

for i in range (m) : 
kernelEval = kernelTrans (sVs,datMat [i,:],kTup) 
predict=kernelEval.T * multiply(labelSV,alphas[lsvIind|]) + b 
if sign(predict) !=sign(labelArr[i]): errorCount += 1 


print "the training error rate is: gt" % (float (errorCount)/m) 

dataArr, labelArr = loadIimages ('testDigits') 

errorCount = 0 

datMat=mat (dataArr); labelMat = mat (labelArr) .transpose() 

m,n = shape (datMat) 

for i in range (m): 
kernelEval = kernelTrans (sVs,datMat [i,:],kTup) 
predict=kernelEval.T * multiply(labelSV,alphas[lsvIind|]) + b 
if sign (predict) !=sign (labelArr[i]): errorCount += 1 

print "the test error rate is: $f" $$ (float (errorCount)/m) 


叮 数 loadImages () 是 作为 前 面 kKNN.py 中 的 handwritingClassTest () 的 一 部 分 出 现 的 。 
化 已 经 被 重 构 为 目 刁 的 一 个 函数 。 其 中 仅 有 的 一 个 大 区 别 在 于 ， 在 kKNN.py 中 代码 耻 接 应 用 类 别 
标签 ， 而 同文 持 向 量 机 一 起 使 用 时 ， 类 别 标签 为 -1 或 者 +1。 因 此 ， 一 旦 碰 到 数字 9， 则 输出 类 别 
标签 -1， 人 否则 输出 +1。 本 质 上 ， 文 持 癌 量 机 是 一 个 二 类 分 类 六 ， 其 分 类 结 采 不 是 +1 就 是 -1。 基 
于 SVM 构建 多 类 分 类 顺 已 有 很 多 研究 和 对 比 了 , 如 果 该 者 感 兴趣 ， 建 议 阅读 C. W. Huset 等 人 发 表 
的 一 篇 论文 “A Comparison of Methods for Multiclass Support Vector Machines”"。 由 于 这 里 我 们 
只 做 二 类 分 类 ， 因 此 除了 1 和 9 之 外 的 数字 都 被 去 择 了 。 

下 一 个 函数 testDigits () 并 不 是 全 新 的 函数 , 它 和 testRbf () 的 代码 几乎 一 样 ， 唯 一 的 大 
区 别 就 是 它 调用 了 loadImages () 函数 来 获得 类 别 标签 和 数据 。 另 一 个 细小 的 不 同 是 现在 这 里 的 
函数 元 组 kTup 是 输入 参数 ， 而 在 testRbf () 中 默认 的 就 是 使 用 rbf 核 函数 。 如 果 对 于 函数 
testDigits() 不 增加 任何 输入 参数 的 话 ， 那 么 kTup 的 默认 值 就 是 (rbf ,10)。 

输入 程序 清单 6-9 中 的 代码 之 后 ， 将 之 保存 为 swmMLiA.py 并 输入 如 下 命令 : 


















































QD C. W. Hus, and C. J. Lin, “A Comparison of Methods for Multiclass Support Vector Machines,” JEEE Transactions on 
Neural Networks 13, no. 2 (March 2002), 415—25。 


6.7 本 章 小 结 113 


>>> SVvmMMLiA.testDigits(('rbf', 20)) 


DL==H 

fullSet, iter: 3 i:401, pairs changed 0 
iteration number: 4 

there are 43 Support Vectors 

the training error rate is: 0.017413 
the test error rate is: 0.032258 


等 试 了 不 同 的 o 值 ， 并 尝试 了 线性 核 函 数 ， 总 结 得 到 的 结 末 如 表 6-1 所 示 。 
表 6-1 不 同 O 值 的 手写 数字 识别 性 能 








内 核 ， 设 置 训练 错误 率 〈% ) 测试 错误 率 〈% ) 文 持 向 量 才 
RBF, 0.1 0 52 402 
RBF, 5 0 2 402 
RBF, 10 0 0.5 99 
RBF, 50 0.2 2.2 41 
RBF, 100 4.5 4.3 26 
Linear 2.7 元 之 38 


表 6-1 给 出 的 结果 表明 ， 当 径 问 基 核 函数 中 的 参数 o 取 10 左 右 时 ,就 可 以 得 到 最 小 的 测试 错误 
率 。 该 参数 值 比 前 面 例子 中 的 取 值 大 得 多 ， 而 前 面 的 测试 错误 率 在 1.3 左 右 。 为 什么 差距 如 此 之 
大 ? 原因 就 在 于 数据 的 不 同 。 在 手写 识别 的 数据 中 ， 有 1024 个 特征 ， 而 这 些 特 征 的 值 有 可 能 高 达 
1.0。 而 在 6.5 区 的 例子 中 ， 所 有 数据 从 -1 到 1 变化 ， 但 是 只 有 2 个 特征 。 如 何 才能 知道 该 怎么 设置 
呢 ?” 说 老实 话 ， 在 写 这 个 例子 时 我 也 不 知道 。 我 只 是 对 不 同 的 设置 进行 了 多 次 尝试 。C 的 设置 也 
会 影响 到 分 类 的 结果 。 当 然 ， 存 在 男 外 的 SVM 形 式 ， 它 们 把 C 同 时 考虑 到 了 优化 过 程 中 ， 例 如 
Vv-SVM 。 有 关 v-SVM 的 一 个 较 好 的 讨论 可 以 参考 本 书 第 3 章 介 绍 过 的 Sergios Theodoridis 和 
Konstantinos Koutroumbas 撰 写 的 Pattern Recoenition*。 

你 可 能 注意 到 了 一 个 有 趣 的 现象 , 即 最 小 的 训练 错误 率 并 不 对 应 于 最 小 的 文 持 问 量 数 目 。 田 
一 个 值得 注音 的 就 是 , 线性 核 也 数 的 效 采 并 不 是 特别 的 糟糕 。 可 以 以 牺牲 线性 核 函 数 的 错误 率 来 
换取 分 类 速度 的 提高 。 尺 管 这 一 点 在 实际 中 是 可 以 接受 的 ,但 是 还 得 取决 于 具体 的 应 用 。 


6.7 ”本章 小 结 


文 持 癌 量 机 是 一 种 分 类 可 。 之 所 以 称 为 “机 ”是 因为 它 会 产生 一 个 二 值 决策 结 琳 , 即 它 是 一 种 
决策 “机 ”。 文 持 向 量 机 的 沁 化 错误 率 较 低 ， 也 就 是 说 它 具 有 民 好 的 等 习 能 力 ， 且 学 到 的 结果 具有 
很 好 的 推广 性 。 这 些 优点 使 得 支持 向 量 机 十 分 流行 ， 有些 人 认为 它 是 监督 学 习 中 最 好 的 定式 算法 。 

文 持 向 量 机 试图 通过 求解 一 个 二 次 优化 问题 来 最 大 化 分 类 间隔 。 在 过 去 , 训练 支持 向量 机 入 
采用 非常 复杂 并 且 低 效 的 二 次 规划 求解 方法 。John Platt 引 入 了 SMO 算 法 , 此 算法 可 以 通过 每 次 只 
优化 2 个 alpha 值 来 加 快 SVM 的 训练 速度 。 本 曹 痛 和 完 讨论 了 一 个 简化 版 本 所 实现 的 SMO 优 化 过 程 ， 












































GD Sergios Theodoridis and Konstantinos Koutroumbas, Pattern Recognition, 4th ed. (Academic Press, 2009), 133. 
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接 者 给 出 了 完整 的 Platt SMO 算 法 。 相 对 于 简化 版 而 言 ， 完 整 版 算法 不 仪 大 大 地 提高 了 优化 的 速 
度 , 还 使 其 存在 一 些 进 一 步 提 高 运行 速度 的 空间 。 有 关 这 方面 的 工作 , 一 个 经 党 被 引用 的 参考 文 
献 就 是 “Improvements to Platt*s SMO Algorithm for SVM Classifier Design” “"。 

核 方法 或 者 说 核 技巧 会 将 数据 〈 有 时 是 非 线 性 数据 ) 从 一 个 低 维 空间 映射 到 一 个 高 维 空 间 ， 
可 以 将 一 个 在 低 维 空间 中 的 非 线性 问题 转换 成 高 维 空间 下 的 线性 问题 来 求解 。 核 方法 不 止 在 SVM 
中 适用 , 还 可 以 用 于 其 他 算法 中 。 而 其 中 的 径 回 基因 数 是 一 个 稼 用 的 度量 两 个 回 量 距离 的 核 永 数 。 

文 持 回 量 机 是 一 个 二 类 分 类 硕 。 当 用 其 解决 多 类 问题 时 ， 则 需要 额外 的 方法 对 其 进行 扩展 。 
SVM 的 效果 也 对 优化 参数 和 所 用 核 另 数 中 的 参数 敏感 。 

下 一 草 将 通过 介绍 一 个 称 为 boosting 的 方法 来 结束 我 们 有 关 分 类 的 介绍 。 访 者 不 久 就 会 看 到 ， 
在 boosting 和 SVM 之 间 存 在 看 许多 相似 之 处 。 














GD S. S. Keerthi, S. K. Shevade, C. Bhattacharyya, and K. R. K. Murthy “Improvements to Platt’s SMO Algorithm for SVM 
Classifier Design, Neural Computation 13, no. 3,( 2001), 637-49. 





利用 AdaBoost 元 算法 提 融 
分 类 性 能 





本 章 内 容 

口 组 合 相 似 的 分 类 带 来 提高 分 类 性 能 
口 应 用 AdaBoost 算 法 

口 处 理 非 均 衡 分 类 问题 


当做 重要 决定 时 , 大 家 可 能 都 会 考虑 吸取 多 个 专家 而 不 只 是 一 个 人 的 意见 。 机 需 学 习 处 理 问 
题 时 又 何 莹 不 是 如 此 ” 这 就 是 元 算法 (meta-algorithm ) 背后 的 思路 。 元 算法 是 对 其 他 算法 进行 组 
合 的 一 种 方式 。 接 下 来 我 们 将 集中 关注 一 个 称 作 AdaBoost 的 最 流行 的 元 算法 。 由 于 某 些 人 认为 
AdaBoost 是 最 好 的 监督 学 习 的 方法 ， 所 以 该 方法 是 机 带 学 习 工 具 箱 中 最 强 有 力 的 工具 之 一 。 

本 曹 首 先 讨 论 不 同 分 类 融 的 集成 方法 ,然后 主要 关注 boosting 方 法 及 其 代表 分 类 震 Adaboost。 
再 接 下 来 ,我 们 就 会 建立 一 个 单 层 决策 树 ( decision stump ) 分 类 器 。 实 际 上 ， 它 是 一 个 单 节 点 的 
决策 树 。AdaBoost 算 法 将 应 用 在 上 述 单 层 决 策 树 分 类 需 之 上 。 我 们 将 在 一 个 难 数据 集 上 应 用 
AdaBoost 分 类 需 ， 以 了 解 该 算法 是 如 何 迅速 超越 其 他 分 类 需 的 。 

最 后 ,在 结束 分 类 话题 之 前 ,我 们 将 讨论 所 有 分 类 需 都 会 遇 到 的 一 个 通用 问题 : 非 均衡 分 类 
问题 。 当 我 们 试图 对 样 例 数目 不 均衡 的 数据 进行 分 类 时 ,就 会 遇 到 这 个 问题 。 信 用 卡 使 用 中 的 其 
诈 检 测 就 是 非 均 衡 问题 中 的 一 个 极 好 的 例子 , 此 时 我 们 可 能 会 对 每 一 个 正 例 样本 都 有 1000 个 反例 
样本 。 在 这 种 情况 下 , 分 类 器 将 如 何 工 作 ? 读者 将 会 了 解 到 ,可 能 需要 利用 修改 后 的 指标 来 评价 
分 类 冀 的 性 能 。 而 束 这 个 问题 而 言 ， 并 非 AdaBoost 所 独 用 ,只 是 因为 这 是 分 类 的 最 后 一 草 ， 因 此 
到 了 讨论 这 个 问题 的 最 佳 时 机 。 


7.1 基于 数据 集 多 重 抽 梓 的 分 类 器 
前 面 已 经 介绍 了 五 种 不 同 的 分 类 算法 ,它们 各 有 优 缺 点 。 我 们 自然 可 以 将 不 同 的 分 类 器 组 合 


起 来 ， 而 这 种 组 合 结果 则 被 称 为 集成 方法 (ensemble method ) 或 者 元 算法 ( meta-algorithm )。 使 
用 集成 方法 时 会 有 多 种 形式 : 可 以 是 不 同 算 法 的 集成 ， 也 可 以 是 同一 算法 在 不 同 设置 下 的 集成 ， 



























































116 第 7 章 利用 AdaBoost 元 算法 提高 分 类 性 能 


还 可 以 是 数据 集 不 同 部 分 分 配给 不 同 分 类 需 之 后 的 集成 。 接 下 来 , 我 们 将 介绍 基于 同一 种 分 类 需 
多 个 不 同 实 例 的 两 种 计算 方法 。 在 这 些 方法 当中 , 数据 集 也 会 不 断 变化 ,而 后 应 用 于 不 同 的 实例 
分 类 和 上。 最 后 ， 我 们 会 讨论 如 何 利 用 机 需 学 习 问 题 的 通用 框 织 来 应 用 AdaBoost 算 法 。 





AdaBoost 
优点 : 泛 化 错误 率 低 ， 刀 编码 ， 可 以 应 用 在 大 部 分 分 类 器 上 ， 无 参数 调整 。 
缺点 : 对 离 群 点 敏感 。 
适用 数据 类 型 : 数值 型 和 标 称 型 数据 。 


7.1.1 bagging: 基于 数据 随机 重 抽 样 的 分 类 器 构建 方法 


自 举 汇 聚 法 ( bootstrap aggregating )， 也 称 为 bagging 方 法 ， 是 在 从 原始 数据 集 选 择 S 次 后 
得 到 5 个 新 数据 集 的 一 种 技术 。 新 数据 集 和 原 数 据 集 的 大 小 相等 。 每 个 数据 集 都 是 通过 在 原始 
数据 集中 随机 选择 一 个 样本 来 进行 替换 而 得 到 的 "。 这 里 的 蔡 换 就 意味 着 可 以 多 次 地 选择 同一 
样本 。 这 一 性 质 就 允许 新 数据 集中 可 以 有 重复 的 值 ， 而 原始 数据 集 的 某 些 值 在 新 集合 中 则 不 
再 出 现 。 

在 S 个 数据 集 建 好 之 后 , 将 某 个 学 习 算 法 分 别 作 用 于 每 个 数据 集 就 得 到 了 4 个 分 类 器 。 当 我 们 
要 对 新 数据 进行 分 类 时 ， 束 可 以 应 用 这 4% 个 分 类 融 进 行 分 类 。 与 此 同时 ， 选 择 分 类 希 投 票 结 采 中 
最 多 的 类 别 作为 最 后 的 分 类 结 

当然 ， 还 有 一 些 更 先进 的 bagging 方 法 ， 比 如 随机 森林 (random forest )。 有 关 这 些 方法 的 一 
个 很 好 的 讨论 材料 参见 网 页 http://wwwi.stat.berkeley.edu/~breiman/RandomForests/cc home.htm。 接 
下 来 我 们 将 注意 力 转 向 一 个 与 bagging 类 似 的 集成 分 类 带 方 法 boosting。 


























7.1.2 boosting 


boosting 是 一 种 与 bagging 很 类 似 的 技术 。 不 论 是 在 boosting 还 是 bagging 当 中 ， 所 使 用 的 多 个 
分 类 需 的 类 型 都 是 一 致 的 。 但 是 在 前 者 当中 , 不 同 的 分 类 需 是 通过 串 行 训 练 而 获得 的 ， 每 个 新 分 
类 需 都 根据 已 训练 出 的 分 类 需 的 性 能 来 进行 训练 。boosting 是 通过 集中 关注 被 已 有 分 类 需 错 分 的 
那些 数据 来 获得 新 的 分 类 和 需 。 

由 于 boosting 分 类 的 结果 是 基于 所 有 分 类 各 的 加 权 求 和 结果 的 ,因此 boosting 与 bagging 不 太一 
样 。bagging 中 的 分 类 融 权 重 是 相等 的 ， 而 boosting 中 的 分 类 带 权 重 并 不 相等 ， 每 个 权重 代表 的 是 
其 对 应 分 类 菏 在 上 一 轮 迭 代 中 的 成 功 度 。 

boosting 方 法 拥有 多 个 版 本 ， 本 章 将 只 关注 其 中 一 个 最 流行 的 版 本 AdaBoost。 





























J 这 里 的 意思 是 从 原始 集合 中 随机 选择 一 个 样本 ， 然 后 随机 选择 一 个 样本 来 代替 这 个 样本 。 在 其 他 书 中 ，bagging 
中 的 数据 集 通 筑 被 认为 是 放 回 取样 得 到 的 ， 比 如 要 得 到 一 个 大 小 为 n 的 新 数据 集 ， 该 数据 集中 的 每 个 样本 都 是 在 
原始 数据 集中 随机 抽样 ( 即 抽样 之 后 又 放 回 ) 得 到 的 。 一 一 详 者 注 
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AdaBoost 的 一 般 流程 

(1) 收集 数据 : 可 以 使 用 任意 方法 。 

(2) 准备 数据 : 依赖 于 所 使 用 的 弱 分 类 器 类 型 ， 
以 处 理 任 何 数 据 类 型 。 当 然 也 可 以 使 用 任意 
任 一 分 类 器 都 可 以 充当 弱 分 类 器 。 作 为 弱 分 

(3) 分 析 数 据 : 可 以 使 用 任意 方法 。 

(4) 训练 算法 : AdaBoost 的 大 部 分 时 间 都 用 在 训练 上 ， 分 类 器 将 多 次 在 同一 数据 集 上 训练 
弱 分 类 器 。 

(5) 测试 算法 : 计算 分 类 的 错误 率 。 

(6) 使 用 算法 : 同 SVM 一 样 ，AdaBoost 预 测 两 个 类 别 中 的 一 个 。 如 果 想 把 它 应 用 到 多 个 类 
别 的 场合 ， 那 么 就 要 像 多 类 SVM 中 的 做 法 一 样 对 AdaBoost 进 行 修 改 。 


本 章 使 用 的 是 单 层 决策 树 ， 这 种 分 类 器 可 
分 类 器 作为 弱 分 类 器 ， 第 2 章 到 第 6 章 中 的 
类 器 ， 简 单 分 类 器 的 效果 更 好 。 





下 面 我 们 将 要 讨论 AdaBoost 背 后 的 一 些 理论 ， 并 揭示 其 效果 不 错 的 原因 。 


7.2 训练 算法 : 基于 错误 提升 分 类 器 的 性 能 





能 否 使 用 绚 分 类 表 和 多 个 实例 来 构建 一 个 强 分 类 天 ? 这 是 一 个 非常 有 趣 的 理论 问题 。 这 里 的 








“ 弱 ” 意 味 着 分 类 融 的 性 能 比 随 机 猜测 要 略 好 ， 但 是 也 不 会 好 太 多 。 这 束 是 说 ， 在 二 分 类 情况 下 
弱 分 类 需 的 错误 率 会 高 于 $0%， 而 “ 强 ” 分 类 天 的 铺 误 率 将 会 低 很 多 。AdaBoost 算 法 即 脱 胎 于 上 
述 理论 问题 。 

AdaBoost 是 adaptive boosting ( 目 适 应 boosting ) 的 缩写 ， 其 运行 过 程 如 下 : 训练 数据 中 的 每 
个 样本 ， 并 赋予 其 一 个 权重 ， 这 些 权 重 构 成 了 回 量 D。 一 开始 ， 这 些 权 重 都 初始 化 成 相等 仁 。 首 
先 在 训练 数据 上 训练 出 一 个 弱 分 类 需 并 计算 该 分 类 需 的 错误 率 , 然后 在 同一 数据 集 上 再 次 训练 弱 
分 类 需 。 在 分 类 需 的 第 二 次 训练 当中 , 将 会 重新 调整 每 个 样本 的 权重 ， 其 中 第 一 次 分 对 的 样本 的 
权重 将 会 降低 ， 而 第 一 次 分 错 的 样本 的 权重 将 会 提高 。 为 了 从 所 有 弱 分 类 顺 中 得 到 最 终 的 分 类 结 
果 ，AdaBoost 为 每 个 分 类 需 都 分 配 了 一 个 权重 值 apha， 这 些 alpha 值 是 基于 每 个 弱 分 类 各 的 错误 
率 进 行 计算 的 。 其 中 ， 错 误 率 e 的 定义 为 : 

未 正确 分 类 的 样本 数目 
所 有 样本 数目 














而 alpha 的 计算 公式 如 下 : 


AdaBoost 算 法 的 流程 如 图 7-1 所 示 。 
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图 7-1 AdaBoost 算 法 的 示 和 意图。 左边 是 数据 集 ， 其 中 直方 图 的 不 同 宽 度 表 示 每 个 样 例 
上 的 不 同 权 重 。 在 经 过 一 个 分 类 需 之 后 ， 加 权 的 预测 结果 会 通过 三 角形 中 的 
alpha 值 进行 加 权 。 每 个 三 角形 中 输出 的 加 权 结 果 在 圆 形 中 求 和 ， 从 而 得 到 最 终 
的 输出 结 


计算 出 atpha 值 之 后 ,可 以 对 权重 向 量 D 进 行 更 新 ， 以 使 得 那些 正确 分 类 的 样本 的 权重 降低 而 
错 分 样本 的 权重 升 高 。D 的 计算 方法 如 下 。 
如 果 某 个 样本 被 正确 分 类 ， 那么 该 样本 的 权重 更 改 为 ; 














DD - De 
Sum(D) 
而 如 果 某 个 样本 被 错 分 ， 那 么 该 样本 的 权重 更 改 为 : 
DD = D'"e” 
| Sum(D) 


在 计算 出 D 之 后 ，AdaBoost 义 开始 进入 下 一 轮 迭 代 。AdaBoost 算 法 会 不 断 地 重复 训练 和 调整 
权重 的 过 程 ， 直 到 训练 错误 率 为 0 或 者 弱 分 类 玫 的 数目 达到 用 户 的 指定 值 为 止 。 

接 下 来 , 我 们 将 建立 完整 的 AdaBoost 算 法 。 在 这 之 前 , 我 们 首先 必须 通过 一 些 代 码 来 建立 弱 
分 类 右 及 保存 数据 集 的 权重 。 


7.3 基于 单 层 决 案 树 构建 能 分 类 器 
单 层 决策 树 〈decision stump， 也 称 决 策 树 梳 ) 是 一 种 简单 的 决策 树 。 前 面 我 们 已 经 介绍 了 决 


策 树 的 工作 原理 ， 接 下 来 将 构建 一 个 单 层 决策 树 ， 而 它 仅 基于 单个 特征 来 做 决策 。 由 于 这 棵 树 只 
有 一 次 分 裂 过 程 ， 因 此 它 实际 上 束 古 一 个 树桩 。 
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在 构造 AdaBoost 的 代码 时 ， 我 们 将 首先 通过 一 个 价 单 数据 集 来 确保 在 算法 实现 上 一 切 就 绪 。 
然后 ， 建 立 一 个 叫 adaboost.py 的 新 文件 并 加 入 如 下 代码 . 


def loadSsimpData (): 
datMat = matrix([[ 1. ， 2.1]， 
[ 2. ， 1.1],， 
[ee 1. ]， 
[ 1. ， 1. ]， 
[Ds 4 Ws ly 
classLabels = [1.0, 1.0, -1.0, -1.0, 1.0] 
return datMat,classLabels 


图 7-2 给 出 了 上 述 数据 集 的 示意 图 。 如 果 想 要 试 厦 从 某 个 坐标 轴 上 选择 一 个 值 ( 即 选择 一 条 
与 坐标 轴 平 行 的 直线 ) 来 将 所 有 的 圆 形 点 和 方形 点 分 开 ,， 这 显然 是 不 可 能 的 。 这 就 是 单 层 决 宋 树 
难以 处 理 的 一 个 著名 问题 。 通过 使 用 多 标 单 层 决 策 树 ,我 们 就 可 以 构建 出 一 个 能 够 对 该 数据 集 完 
全 正确 分 类 的 分 类 带 。 








2.2 单 层 决策 树 测 试 数据 


2.0 
1.8 
1.6 
1.4 
1.2 


1.0 


°%.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2 
图 7-2 ”用 于 检测 AdaBoost 构 建 函 数 的 简单 数据 。 这 不 可 能 仅仅 通过 在 某 个 坐标 轴 上 选 
择 某 个 浆 值 来 将 圆 形 点 和 方形 点 分 开 。AdaBoost 需 要 将 多 个 单 层 决策 树 组 合 起 
来 才能 对 该 数据 集 进行 正确 分 类 
通过 键入 如 下 命令 可 以 实现 数据 集 和 类 标签 的 导入 : 


>>> import adaboost 
>>> datMat,classLabels=adaboost .loadSsimpData () 


有 了 数据 ， 接 下 来 就 可 以 通过 构建 多 个 函数 来 建立 单 层 决 策 树 。 

第 一 个 函数 将 用 于 测试 是 否 有 茶 个 值 小 于 或 者 大 于 我 们 正在 测试 的 国 值 。 第 二 个 函数 则 更 加 
复杂 一 些 ， 它 会 在 一 个 加 权 数 据 集中 循环 ， 并 找到 具有 最 低 错误 座 的 单 层 决 策 树 。 

这 个 程序 的 伪 代 码 看 起 来 大 致 如 下 : 
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将 最 小 错误 率 minError 设 为 +oo 
对 数据 集中 的 每 一 个 特征 ( 第 一 层 循环 ): 
对 每 个 步 长 (第 二 层 循环 ) 
对 每 个 不 等 号 (第 三 层 循环 ): 

建立 一 棵 单 层 决策 树 并 利用 加 权 数 据 集 对 它 进行 测试 

如 果 错 误 率 低 于 minError， 则 将 当前 单 层 决策 树 设 为 最 佳 单 层 决策 树 
返回 最 佳 单 层 决 策 树 
接 下 来 ， 我 们 开始 构建 这 个 因数 。 将 程序 清单 7-1 中 的 代码 输入 到 boost,py 中 并 保存 文件 。 

程序 清单 7-1 单 层 决策 树 生成 明净 


def stumpClassify(dataMatrix,dimen,threshVal,threshIineqg): 
retArray = ones((shape (dataMatrix) [0] ,1)) 


if threshIineq == 'l]lt': 

retArray [dataMatrix[:,dimen|] <= threshVal|] = -1.0 
else: 

retArray [dataMatrix[:,dimen|] > threshVal] = -1.0 


return retArray 


def buildSstump (dataArr,classLabels,D): 
dataMatrix = mat (dataArr); labelMat = mat (classLabels).T 
m,n = shape (dataMatrix) 
numSteps = 10.0; bestStump = {}; bestClasEst = mat (zeros((m,1))) 


minError = inf 
for i in range (n): 
rangeMin = dataMatrix[:,i] .min(); rangeMax = dataMatrix[:,i] .max(); 
stepSize = (rangeMax-rangeMin) /numSteps 
for ] in range(-1,int (numSteps)+1): 
for inequal in ['lt', 'gt']: 
threshVal = (rangeMin + float (]) * stepSize) 


predictedVals = \ 
stumpClassify(dataMatrix,1,threshVal,inequal) 
errArr = mat (ones ((m,1))) 
errArr[predictedVals == labelMat] = 0 
weightedError = D.T*errArr 
#print "split: dim $d, thresh $.2f, thresh ineqal: \ 
$s, the weighted error is $.3f'" $\ 
(i, threshVal, inequal, weightedError) 
if weightedError < minError: 
minError = weightedError 
bestClasEst = predictedVals.copy () 
bestStump ['dim’'] = 1 计算 加 权 错 误 率 
bestSstumpl'thresh'] = threshVal 
bestSstumpl[l'ineq'] = inequal 
return bestStump,minError,bestClasEst 


上 述 程序 包含 两 个 函数 ,第 一 个 隐 数 stumpclassify () 是 通过 阔 值 比较 对 数据 进行 分 类 的 。 
所 有 在 国 值 一 边 的 数据 会 分 到 类 别 -1, 而 在 另外 一 边 的 数据 分 到 类 别 +1。 该 函数 可 以 通过 数组 过 
滤 来 实现 , 首先 将 返回 数组 的 全 部 元 素 设置 为 1, 然后 将 所 有 不 满足 不 等 式 要 求 的 元 素 设 置 为 -1。 
可 以 基于 数据 集中 的 任 一 元 系 进 行 比较 ， 同 时 也 可 以 将 不 等 号 在 大 于 、 小 于 之 间 切 换 。 
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第 二 个 六 数 buildstump () 将 会 届 历 stumpClassify() 函数 所 有 的 可 能 输入 但 ， 并 找到 数 
据 集 上 最 佳 的 单 层 决策 树 。 这 里 的 “最 佳 ” 是 基于 数据 的 权重 问 量 D 来 定义 的 ， 读 者 很 快 就 会 看 
到 其 具体 定义 了 。 在 确保 输入 数据 符合 矩阵 格式 之 后 ， 整 个 函数 就 开始 执行 了 。 然 后 ， 荫 数 将 构 
建 一 个 称 为 beststump 的 空 字典 ， 这 个 字典 用 于 存储 给 定 权 重 癌 量 D 时 所 得 到 的 最 佳 单 层 决策 树 
的 相关 信息 。 变量 numSsteps 用 于 在 特征 的 所 有 可 能 值 上 进行 裔 历 。 而 变量 minError 则 在 一 开始 
就 初始 化 成 正 无 穷 大 ， 之 后 用 于 寻找 可 能 的 最 小 错误 率 。 

三 层 般 套 的 for 循 环 是 程序 最 主要 的 部 分 。 第 一 层 for 循 环 在 数据 集 的 所 有 特征 上 遍历 。 考 
虚 到 数值 型 的 特征 ,我 们 就 可 以 通过 计算 最 小 值 和 最 大 值 来 了 解 应 该 需要 多 大 的 步 长 。 然 后, 第 
二 层 for 循 环 再 在 这 些 值 上 过 历 。 甚 至 将 国 值 设置 为 整个 取 值 范围 之 外 也 是 可 以 的 。 因 此 ， 在 取 
值 范 围 之 外 还 应 该 有 两 个 额外 的 步骤 。 最 后 一 个 fo 循环 则 是 在 大 于 和 小 于 之 间 切 换 不 等 式 。 

在 能 套 的 三 层 for 循 环 之 内 ,我 们 在 数据 集 及 三 个 循环 变量 上 调用 stumpCclassify() 困 数 。 
基于 这 些 循环 变量 ,该 函数 将 会 返回 分 类 预测 结果 。 接 下 来 构建 一 个 列 癌 量 errArr， 如 果 
predictedqvals 中 的 值 不 等 于 LabelMat 中 的 真正 类 别 标签 但 , 那么 erraArz 的 相应 位 置 为 1。 将 
错误 向 量 errArr 和 权重 向 量 D 的 相应 元 素 相 乘 并 求 和 ， 就 得 到 了 数值 weightedError@。 这 就 
是 AdaBoost 和 分 类 天 交互 的 地 方 。 这 里 ， 我 们 是 基于 权重 回 量 盖 而 不 是 其 他 错误 计算 括 标 来 评价 
分 类 需 的 。 如 果 需 要 使 用 其 他 分 类 需 的 话 ， 就 需要 考虑 D 上 最 佳 分 类 需 所 定义 的 计算 过 程 。 

程序 接 下 来 输出 所 有 的 值 。 虽 然 这 一 行 后 面 可 以 注释 掉 , 但 是 它 对 理解 函数 的 运行 还 是 很 有 
帮助 的 。 最 后 , 将 当前 的 错误 率 与 已 有 的 最 小 错误 率 进行 对 比 ， 如 果 当 前 的 值 较 小 ， 那 么 就 在 词 
典 pbeststump 中 保存 该 单 层 决 末 树 。 字 典 、 错 误 率 和 类 别 估计 值 都 会 返回 给 AdaBoost 算 法 。 

为 了 解 实际 运行 过 程 ， 在 Python 提 示 符 下 输入 如 下 命令 : 

>>> D = mat (ones ((5,1))/5) 

>>> adaboost .buildSstump (datMat, classLabels,D) 




























































































split: dim 0, thresh 0.90, thresh inegqal: lt, the weighted error is 0.400 
split: dim 0, thresh 0.90, thresh inegqal: gt, the weighted error is 0.600 
split: dim 0, thresh 1.00, thresh inegqal: lt, the weighted error is 0.400 
split: dim 0, thresh 1.00, thresh inegqal: gt, the weighted error is 0.600 
split: dim 1, thresh 2.10, thresh ineqal: lt, the weighted error is 0.600 
split: dim 1, thresh 2.10, thresh inegqal: gt, the weighted error is 0.400 
({'dim': 'ineq': 'lt', 'thresh': 1.3}, matrix([[ 0.2]]), array([[-1.], 


buildstump 在 所 有 可 能 的 值 上 侦 历 的 同时 ， 我们 也 可 以 看 到 输出 的 结果 ,并且 最 后 会 看 到 
返回 的 字典 。 读者 可 以 思考 一 下 , 该 词典 是 否 对 应 了 最 小 可 能 的 加 权 错 误 率 ?是 否 存 在 其 他 的 设 
置 也 能 得 到 相同 的 错误 率 ? 

上 述 单 层 决策 树 的 生成 图 数 是 决 案 树 的 一 个 简化 版 本 。 它 就 是 所 谓 的 弱 学 习 希 ,， 即 弱 分 类 算 
法 。 到 现在 为 止 ,我 们 已 经 构建 了 单 层 决策 树 ， 并 生成 了 程序 ,做 好 了 过 渡 到 完整 AdaBoost 算 法 
的 准备 。 在 下 一 市 当中 ， 我 们 将 使 用 多 个 弱 分 类 蕴 来 构建 AdaBoost 代 人 码 。 
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7.4 完整 AdaBoost 算法 的 实现 


在 上 一 六 ， 我 们 构建 了 一 个 基于 加 权 输 入 值 进 行 决策 的 分 类 器 。 现 在 ,我们 拥有 了 实现 一 个 
完整 AdaBoost 算 法 所 需要 的 所 有 信息 。 我 们 将 利用 7.3 节 构建 的 单 层 决策 树 来 实现 7.2 市 中 给 出 提 
岗 的 算法 。 
整个 实现 的 伪 代 人 码 如 下 : 
对 每 次 迭代 : 
利用 buildStump () 函数 找到 最 佳 的 单 层 决策 树 
将 最 佳 单 层 决策 树 加 入 到 单 层 决策 树 数 组 
计算 alpha 
计算 新 的 权重 向 量 
i 
如 果 错 误 率 等 于 0.0， 则 退出 循环 


为 了 将 该 困 数 放 和 人 Python 中 ， 打 开 adaboost.py 文 件 并 将 程序 清单 7-2 的 代码 加 入 其 中 。 
程序 清单 7-2 基于 单 层 决 扫 树 的 AdaBoost 训 | 练 过 程 


def adaBoostTrainDs (dataArr,classLabels,numIt=40): 








weakClassArr = [|] 
m = 
D = mat (ones( ) /m) 


aggClassEst = a 

for i in range (numIt): 
bestStump,error,classEst = buildSstump (dataArr,classLabels,D) 
print "D:",D.T 
alpha = float (0.5*log((1.0-error) /max(error,1le-16))) 
bestSstumpl'alpha'] = alpha 
weakClassArr.append (bestStump) 


print "classEst: ",classEst.T 

expon = multiply(-l*alpha*mat (classLabels) .T,classEst) 为 下 一 
D = multiply(D,exp (expon)) 人 代 计 算 D 
D = D/D.sum!() 

aggClassEst += alpha*classEst 

print "aggClassEst: ",aggClassEst.T 闪 误 率 累 加 计算 


aggErrors = multiply (sign(aggClassEst) |!= 
mat (classLabels) .T,ones( (m,1))) 


errorRate = aggErrors.sum()/m 
print "total error: " ,errorRate,"\n' 
if errorRate == 0.0: break 


return weakClassArr 
>>> classifierArray = adaboost.adaBoostTrainDS (datMat,classLabels,9) 


D: [[ 0.2 0.2 0.2 0.2 0.2]] 

classEst: [[-1. 1. -1. -1. 1.]] 

aggClassEst: [[-0.69314718 0.69314718 -0.69314718 -0.69314718 
0.69314718]] 


total error: 0.2 
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D: [[ 0.5 0.125 0.125 0.125 0.125]] 

classEst: [[ 1. 1. -1. -1. -1.]j 

aggClassEst: [[ 0.27980789 1.66610226 -1.66610226 -1.66610226 
-0.27980789j] 

total error: 0.2 

D: [[ 0.28571429 0.07142857 0.07142857 0.07142857 0.5 ]] 

classEst: [[ 1. 1. 1. 1. 1.]] 

aggClassEst: [[ 1.17568763 2.56198199 -0.77022252 -0.77022252 
0.61607184]|] 


total error: 0.0 

AdaBoost 算 法 的 输入 参数 包括 数据 集 、 类 别 标签 以 及 迭代 次 数 numIt， 其 中 numIt 是 在 整个 
AdaBoost 算 法 中 唯一 需要 用 户 指定 的 参数 。 

我 们 假定 迭代 次 数 设 为 9， 如 采 算 法 在 第 三 次 迭代 之 后 错误 率 为 0， 那 么 就 会 退出 迭代 过 程 ， 
因此 ， 此 时 就 不 需要 执行 所 有 的 9 次 迭代 过 程 。 每 次 迭代 的 中 间 结 采 都 会 通过 print 语 句 进 行 输 
出 。 后 面 ,读者 可 以 把 print 输 出 培 句 注释 挥 ,但 是 现在 可 以 通过 中 间 结 果 来 了 解 AdaBoost 算 法 
的 内 部 运行 过 程 。 

师 数 名 称 尾 部 的 DS 代 表 的 就 是 单 层 决策 树 〈decision stump )， 它 是 AdaBoost 中 最 流行 的 弱 分 
类 希 ， 当 然 并 非 唯一 可 用 的 弱 分 类 右 。 上 述 函 数 确实 是 建立 于 单 层 决策 树 之 上 的 , 但 是 我 们 也 可 
以 很 容 匈 对 此 进行 修改 以 引入 其 他 基 分 类 带 。 实 际 上 ,任意 分 类 希 都 可 以 作为 基 分 类 希 , 本 书 前 
面 讲 到 的 任何 一 个 算法 都 行 。 上 述 算法 会 输出 一 个 单 层 决策 树 的 数组 , 因此 首先 需要 建立 一 个 新 
的 Python 表 来 对 其 进行 存储 。 然 后 ， 得 到 数据 集中 的 数据 点 的 数目 m， 并 建立 一 个 列 癌 量 D。 

问 量 D 非 常 重要 ， 它 包含 了 每 个 数据 点 的 权重 。 一 开始 ， 这 些 权 重 都 赋予 了 相等 的 值 。 在 后 
续 的 迭代 中 ,AdaBoost 算 法 会 在 增加 错 分 数据 的 权重 的 同时 ,降低 正确 分 类 数据 的 权重 。D 是 一 
个 概率 分 布 辐 量 ， 因 此 其 所 有 的 元 素 之 和 为 1.0。 为 了 满足 此 要 求 ， 一 开始 的 所 有 元 厅 都 会 被 初 
始 化 成 Im。 同时 ， 程 序 还 会 建立 另 一 个 列 回 量 aggclassEst， 记 录 每 个 数据 点 的 类 别 佑 计 累 
计 值 。 

AdaBoost 算 法 的 核心 在 于 for 循 环 , 该 循环 运行 humIt 次 或 者 下 到 训练 错误 率 为 0 为 止 。 循环 
中 的 第 一 件 事 就 是 利用 前 面 介绍 的 buildstump () 函数 建立 一 个 单 层 决策 树 。 该 函数 的 输入 为 权 
重 癌 量 D， 返 回 的 则 是 利用 D 而 得 到 的 具有 最 小 错误 率 的 单 层 决策 树 ， 同 时 返回 的 还 有 最 小 的 错 
误 率 以 及 估计 的 类 别 辐 量 。 

接 下 来 ,需要 计算 的 则 是 alpha 住 。 该 信 会 告诉 总 分 类 天 本 次 单 层 决策 树 输出 结 采 的 权重 。 其 
中 的 语句 max (erzor，1e-16) 用 于 确保 在 没有 错误 时 不 会 发 生 除 和 雪 洲 出 。 而 后 ，alpha 值 加 入 到 
bestStump 字 典 中 ， 该 字典 又 添加 到 列表 中 。 该 字典 包括 了 分 类 所 需要 的 所 有 信息 。 

接 下 来 的 三 行人 @ 则 用 于 计算 下 一 次 迭代 中 的 新 权重 向 量 D。 在 训练 错误 率 为 0 时 ， 就 要 提前 
结束 for 循 环 。 此 时 程序 是 通过 aggclassEst 变 量 保持 一 个 运行 时 的 类 别 估 计 值 来 实现 的 @, 该 
值 只 是 一 个 浮 点 数 ， 为 了 得 到 二 值 分 类 绪 末 还 需要 调用 sign () 图 数 。 如 采 总 错误 率 为 0， 则 由 
break 语 人 句 中 目 Eor 循 环 。 

接 下 来 我 们 观察 一 下 中 间 的 运行 结束。 还 记得 吗 , 数据 的 类 别 标签 为 [1.0, 1.0, -1.0, -1.0, 1.0]。 
在 第 一 轮 迭 代 中 ，D 中 的 所 有 从 都 相等 。 于 是 ， 只 有 第 一 个 数据 点 被 错 分 了。 因此 在 第 二 轮 迭 代 
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中 ,，D 向 量 给 第 一 个 数据 点 0.5 的 权重 。 这 就 可 以 通过 变量 aggClassEst 的 从 写 来 了 解 总 的 类 别 。 

第 二 次 迭代 之 后 , 我 们 就 会 发 现 第 一 个 数据 点 已 经 正确 分 类 了 , 但 此 时 最 后 一 个 数据 点 却 是 错 分 

了 。D 癌 量 中 的 最 后 一 个 元 系 变 成 0.5， 而 D 问 量 中 的 其 他 值 都 变 得 非常 小 。 最 后 ， 第 三 次 迭代 之 

后 aggCclassEst 所 有 值 的 符号 和 真实 类 别 标签 都 完全 吻合 ,那么 训练 错误 率 为 0, 程序 就 此 退出 。 
为 了 观察 classifierArray 的 值 ， 键 入 : 


>>> classifierArray 











im': 0, 'inegqg': t', 'thresh': .3， 'alpha': : ) 

[1'dim'! 0 11 ! 1 七， 'th h' 工 .3 1'alpha'! 0.69314718055994529 
{'dim': 1, 'ineq': 'lt', 'thresh': 1.0, 'alpha': 0.9729550745276565}, 
{'dim': 0,'ineq': ']t', 'thresh': 0.90000000000000002, 'alpha': 


0.89587973461402726}] 
该 数组 包含 三 部 词典 , 其 中 包含 了 分 类 所 需要 的 所 有 信息 。 此 时 ,一 个 分 类 可 已 经 构建 成 功 ， 
而 且 只 要 我 们 愿意 ， 随 时 都 可 以 将 训练 错误 率 降 到 0。 那 么 测试 错误 率 会 如 何 呢 ? 为 了 观察 测试 
错误 率 ， 我 们 需要 编写 分 类 的 一 些 代码 。 下 一 方 我 们 将 讨论 分 类 。 


7.5 测试 算法 : 基于 AdaBoost 的 分 类 


一 旦 拥有 了 多 个 弱 分 类 融 以 及 其 对 应 的 alpha 值 ,进行 测试 就 变 得 相当 容易 了 。 在 程序 清单 7-2 
的 adaBoostTrainDs () 中 ， 我 们 实际 已 经 写 完 了 大 部 分 的 代码 。 现 在 ， 需 要 做 的 就 只 是 将 弱 分 
类 需 的 训练 过 程 从 程序 中 抽出 来 , 然后 应 用 到 某 个 具体 的 实例 上 去 。 每 个 弱 分 类 需 的 结果 以 其 对 
应 的 alpha 值 作为 权重 。 所 有 这 些 弱 分 类 需 的 结果 加 权 求 和 就 得 到 了 最 后 的 结 有 末 。 在 程序 清单 7-3 
中 列 出 了 实现 这 一 过 程 的 所 有 代码 。 然 后 ， 将 下 列 代码 添加 到 adaboost.py 中 ， 就 可 以 利用 它 基 于 
adaboostTrainDs () 中 的 弱 分 类 表 对 数据 进行 分 类 。 























程序 清单 7-3” ”AdaBoost 分 类 的 数 
def adaClassify (datToClass,classifierArr): 
dataMatrix = mat (datToClass) 
m = shape (dataMatrix) [0] 
aggClassEst = mat (zeros((m,1))) 
for i in range (len(classifierArr)): 


classEst = stumpClassify (dataMatrix,classifierArr[i]['dim'],\ 
classifierArr[i] ['thresh'],\ 
classifierArr[i]['ineq']) 
aggClassEst += classifierArr[i] ['alpha']*classEst 


print aggClassEst 
return sign(aggClassEst) 


读者 也 许可 以 猜 到 ， 上 述 的 adqaaclassify() 函数 就 是 利用 训练 出 的 多 个 弱 分 类 器 进行 分 类 
的 函数 。 该 轴 数 的 输入 是 由 一 个 或 者 多 个 待 分 类 样 例 aatToclass 以 及 多 个 弦 分 类 天 组 成 的 数组 
classifierArrs 卫 数 aaqaclassify() 首 先 将 daatToclass 转 换 成 了 一 个 NumPy 和 窍 阵 ， 并 且 得 
到 dqatToclass 中 的 待 分 类 样 例 的 个 数 m。 然 后 构建 一 个 0 列 癌 量 aggclassEst， 这 个 列 癌 量 与 
adaBoostTrainDSs () 中 的 含义 一 样 。 

接 下 来 , 遍历 classifierArr 中 的 所 有 轮 分 类 如 , 并 基于 stumpcClassify () 对 每 个 分 类 可 
得 到 一 个 类 别 的 估计 值 。 在 前 面 构建 单 层 决策 树 时 ， 我 们 已 经 见 过 了 stumpClassify() 函数 ， 
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在 那里 , 我 们 在 所 有 可 能 的 树桩 信 上 进行 迭代 来 得 到 具有 最 小 加 权 错 误 率 的 单 层 决策 树 。 而 这 里 
我 们 只 是 简单 地 应 用 了 单 层 决策 树 。 输 出 的 类 别 佑 计 信 乘 上 该 单 层 决策 树 的 alpha 权 重 然后 紧 加 到 
aggClassEst 上 ， 就 完成 了 这 一 过 程 。 上 述 程序 中 加 入 了 一 条 print 语 句 ， 以 便 我 们 了 解 
aggClassEst 每 次 迭代 后 的 变化 结果 。 最 后 ,程序 返回 aggclassEst 的 符号 ， 即 如 果 
aggClassEst 大 于 0 则 返回 +1， 而 如 果 小 于 0 则 返回 -1。 

我 们 再 看 看 实际 中 的 运行 歼 采 。 加 入 程序 清单 7-3 中 的 代码 之 后 ， 在 Python 提示 符 下 输入 : 


>>> reload (adaboost) 
<module 'adaboost' from 'adaboost .py'> 


如 条 没有 弱 分 类 需 数 组 ， 可 以 输入 如 下 命令 : 


>>> datArr, labelArr=adaboost .loadSsimpData () 
>>> ClassifierArr = adaboost.adaBoostTrainDs (datArr, labelArr,30) 


于 是 ， 可 以 输入 如 下 命令 进行 分 类 : 
>>> adaboost.adaClassify([0, 0] ,classifierArr) 
[[-0.69314718]] 
[[-1.66610226]] 


[[-2.56198199]] 
matrix([[-1.]]) 


可 以 发 现 ， 随 着 迭代 的 进行 ， 数据 点 [0,0] 的 分 类 结果 越 来 越 强 。 当 然 ， 我 们 也 可 以 在 其 他 点 上 进 
行 分 类 : 

>>> adaboost.adaClassify([[5, 5],[0,0]] ,classifierArr) 

[[ 0.69314718] 











[-2.56198199]] 
matrix([[ 1.], 


Ll 
这 两 个 点 的 分 类 绪 末 也 会 随 春 迭代 的 进行 而 越 来 越 强 。 在 下 一 市 中 , 我 们 会 将 该 分 类 带 应 用 
到 一 个 规模 更 大 、 难 度 也 更 大 的 真实 数据 集中 。 


7.6 示例 : 在 一 个 难 数据 集 上 应 用 AdaBoost 


本 而 我 们 将 在 第 4 草 给 出 的 马 疝 病 数据 集 上 应 用 AdaBoost 分 类 天 。 在 第 4 章 ， 我 们 曾经 利用 
Logistic 回 归来 预测 患 有 疝 病 的 马 是 否 能 够 存活 。 而 在 本 节 ， 我 们 则 想 要 知道 如 果 利 用 多 个 单 层 
决策 树 和 AdaBoost 能 不 能 预测 得 更 准 。 











示例 : 在 一 个 难 数 据 集 上 的 AdaBoost 应 用 
(1) 收集 数据 : 提供 的 文本 文件 。 
(2) 准备 数据 : 确保 类 别 标 签 是 +1 和 -1 而 非 1 和 0。 
(3) 分 析 数 据 : 手工 检查 数据 。 
(4) 训练 算法 : 在 数据 上 ， 利 用 adqaBoostTrainDS () 函数 训练 出 一 系列 的 分 类 器 。 
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(5) 测试 算法 : 我 们 拥有 两 个 数据 集 。 在 不 采用 随机 抽样 的 方法 下 ， 我们 就 会 对 AdaBoost 
和 Logistic 回 归 的 结果 进行 完全 对 等 的 比较 。 

(6) 使 用 算法 : 观察 该 例子 上 的 错误 率 。 不 过 ， 也 可 以 构建 一 个 Web 网 站 ， 让 驯 马 师 输 入 
马 的 症状 然后 预测 马 是 否 会 死去 。 











在 使 用 上 述 程 序 清 单 中 的 代码 之 前 ， 必 须要 有 问 文 件 中 加 载 数据 的 方法 。 一 个 第 见 的 
loadDataset () 的 程序 如 下 所 示 。 


程序 清单 7-4 ”有 目 适应 数据 加 载 困 数 


def loadDataset (fileName): 
numFeat = len(open(fileName) .readline() .split('\t')) 
dataMat = []; labelMat = [ 
fr = open (fileName) 
for line in fr.readlines () : 
lineArr =[] 
curLine = line.strip() .split('\t') 
for i in range (numFeat-1): 
lineArr.append (float (curLine[il])) 
dataMat .append (lineArr) 
labelMat .append (float (curLine[-1])) 
return dataMat, labelMat 


之 前 ， 读 者 可 能 多 次 见 过 了 上 述 程序 清单 中 的 loadDataSet () 图 数 。 在 这 里 ， 并 不 必 指 定 
每 个 文件 中 的 特征 数 日 ,所 以 这 里 的 函数 与 前 面 的 和 有 不 同 。 该 函数 能 够 日 动 检测 出 特征 的 数 日 。 
同时 ， 该 函数 也 假定 最 后 一 个 特征 是 类 别 标签 。 

将 上 述 代 码 添加 到 aqaboost .py 文件 中 并 且 将 其 保存 之 后 ， 就 可 以 输入 如 下 命令 来 使 用 上 

>>> datArr,1labelArr = adaboost.loadDataSet ('horseColicTraining2 .txt') 

>>> classifierArray = adaboost.adaBoostTrainDs (datArr, labelArr,10) 


total error: 0.284280936455 
total error: 0.284280936455 

















total error: 0.230769230769 

>>> testArr,testLabelArr = adaboost.loadDataSet ('horseColicTest2 .txt') 
>>> predictionl10 = adaboost.adaClassify (testArr,classifierArray) 

TO get the number of misclassified examples type in: 


>>> errArr=mat (ones ((67,1))) 
>>> errArr [predictionl10!=mat (testLabelArr) .T] .sum() 
16.0 


要 得 到 错误 率 ， 只 需 将 上 述 错 分 样 例 的 个 数 除 以 67 即 可 。 

将 弱 分 类 需 的 数目 设 定 为 1 到 10 000 之 间 的 几 个 不 同 数 字 ， 并 运行 上 述 过 程 。 这 时 ， 得 到 的 
结果 就 会 如 表 7-1 所 示 。 在 该 数据 集 上 得 到 的 错误 率 相当 低 。 如 果 没 忘 的 话 ， 在 第 5 章 中 ， 我 们 在 
同一 数据 集 上 采用 Logistic 回 归 得 到 的 平均 错误 率 为 0.3$。 而 采用 AdaBoost, 得 到 的 错误 率 就 永远 
不 会 那么 高 了 。 从 表 中 可 以 看 出 ， 我 们 仅仅 使 用 S0 个 弱 分 类 顺 ， 就 达到 了 较 高 的 性 能 。 
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表 7-1 不 同 弱 分 类 器 数目 情况 下 的 AdaBoost 测 试 和 分 类 错误 率 。 该 数据 集 是 个 难 数 据 集 。 通 常 
情况 下 ，AdaBoost 会 达到 一 个 稳定 的 测试 错误 率 ， 而 并 不 会 随 分 类 器 数目 的 增多 而 提高 


分 类 器 数目 训练 错误 率 (%) 测试 错误 率 (%) 
1 0.28 0.27 
10 0.23 0.24 
50 0.19 0.21 
100 0.19 0.22 
500 0.16 0.25 
1000 0.14 0.31 
10000 0.11 0.33 


观察 表 7-1 中 的 测试 错误 率 一 栏 ， 就 会 发 现 测试 错误 率 在 达到 了 一 个 最 小 值 之 后 又 开始 上 升 
了 了。 这 类 现象 称 之 为 过 拟 合 〈overfitting， 也 称 过 学 习 )。 有 文献 声称 ， 对 于 表现 好 的 数据 集 ， 
AdaBoost 的 测试 错误 率 就 会 达到 一 个 稳定 值 ， 并 不 会 随 春 分 类 俘 的 增多 而 上 升 。 或 许 在 本 例子 中 
的 数据 集 也 称 不 上 “表现 好 ”。 该 数据 集 一 开始 有 30% 的 缺失 值 ， 对 于 Logistic 回 归 而 言 ， 这 些 缺 
失 值 的 假设 就 是 有 效 的 ， 而 对 于 决策 树 却 可 能 并 不 合适 。 如 来 回 到 数据 集 ， 将 所 有 的 0 值 督 换 成 
其 他 值 ， 或 者 给 定 类 别 的 平均 值 ， 那 么 能 否 得 到 更 好 的 性 能 ? 

很 多 人 痢 认 为 , AdaBoost 和 SVM 是 监督 机 融 学 习 中 最 蝇 大 的 两 种 方法 。 实 际 上 , 这 两 者 之 间 
拥有 不 少 相 似 之 处 。 我 们 可 以 把 弱 分 类 各 想象 成 SVM 中 的 一 个 核 函数 , 也 可 以 按照 最 大 化 某 个 最 
小 间隔 的 方式 重 写 AdaBoost 算 法 。 而 它们 的 不 同 就 在 于 其 所 定义 的 间 隅 计算 方式 有 所 不 同 , 因此 
导致 的 结 末 也 不 同 。 特 别 是 在 高 维 空间 下 ， 这 两 者 之 间 的 差异 就 会 更 加 明显 。 

在 下 一 他 中， 我 们 不 再 讨论 AdaBoost， 而 是 转 而 关注 所 有 分 类 甫 中 的 一 个 普 过 问题 。 


7.7” 非 均衡 分 类 问题 


在 我 们 结束 分 类 这 个 主题 之 前 ， 还 必须 讨论 一 个 问题 。 在 前 面 六 昔 的 所 有 分 类 介绍 中 ， 
我 们 都 假设 所 有 类 别 的 分 类 代价 是 一 样 的 。 例 如 在 第 $ 章 ， 我 们 构建 了 一 个 用 于 检测 患 疝 病 的 
马匹 是 否 存 活 的 系统 。 在 那里 ， 我 们 构建 了 分 类 需 ， 但 是 并 没有 对 分 类 后 的 情形 加 以 讨论 。 
假如 某 人 给 我 们 奉 来 一 匹 马 ， 他 和 希望 我 们 能 预测 这 匹 马 能 否 生 存 。 我 们 说 马 会 死 ， 那 么 他 们 
网 可 能 会 对 马 实施 安乐 死 ， 而 不 是 通过 给 马 喂 药 来 延缓 其 不 可 避免 的 死亡 过 程 。 我 们 的 预测 
也 许 是 错误 的 , 马 本 来 是 可 以 继续 活 春 的 。 毕 葛 , 我 们 的 分 类 需 只 有 80% 的 精确 率 ( accuracy )。 
如 末 我 们 预测 错误 ， 那 么 我 们 将 会 错 杀 了 一 个 如 此 昂 贯 的 动物 ， 更 不 要 说 人 对 马 还 存在 情感 
上 的 依恋 。 

如 何 过 滤 垃 圾 邮件 呢 ? 如 采 收 件 箱 中 会 出 现 某 些 垃圾 邮件 , 但 合法 邮件 永远 不 会 扔 进 垃圾 邮 
件 夹 中 , 那么 人 们 是 否 会 满意 呢 ?” 冶 症 检测 叉 如 何 呢 ?只 要 患 病 的 人 不 会 得 不 到 治疗 , 那么 再 找 

-个 医生 来 看 看 会 不 会 更 好 呢 ( 即 情愿 误 判 也 不 源 判 ) ? 

还 可 以 举 出 很 多 很 多 这 样 的 例子 ,坦白 地 说 ,在 大 多 数 情况 下 不 同类 别 的 分 类 代价 并 不 相等 。 

在 本 市 中 , 我 们 将 会 考察 一 种 新 的 分 类 善 性 能 度量 方法 , 并 通过 图 像 技 术 来 对 在 上 述 非 均衡 问题 
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下 不 同 分 类 器 的 性 能 进行 可 视 化 处 理 。 然 后 ,我 们 考察 这 两 种 分 类 器 的 变换 算法 ,它们 能 够 将 不 
同 决策 的 代价 考虑 在 内 。 





7.7.1 其 他 分 类 性 能 度量 指标 : 正确 率 、 召 回 率 及 ROC 曲线 


到 现在 为 止 , 本 书 都 是 基于 错误 率 来 衡量 分 类 硕 任务 的 成 功 程度 的 。 错 误 率 指 的 是 在 所 有 测 
试 样 例 中 错 分 的 样 例 比 例 。 实 际 上 , 这样 的 度量 错误 掩盖 了 样 例如 何 被 分 错 的 事实 。 在 机 各 学 习 
中 ， 有 一 个 普遍 适用 的 称 为 混淆 矩阵 (confusion matrix ) 的 工具 ， 它 可 以 帮助 人 们 更 好 地 了 解 分 
类 中 的 错误 。 有 这 样 一 个 关于 在 房子 周围 可 能 发 现 的 动物 类 型 的 预测 , 这 个 预测 的 三 类 问题 的 混 
消 和 矩阵 如 表 7-2 所 示 。 














表 7-2 ”一 个 三 类 问题 的 混淆 矩阵 


预测 结果 


狗 猫 鼠 

狗 24 2 5 

真实 结果 猫 2 27 0 
鼠 4 2 30 











利用 混 消 矩阵 就 可 以 更 好 地 理解 分 类 中 的 错误 了 。 如 果 和 矩阵 中 的 非 对 角 元 系 均 为 0%， 就 会 得 
到 一 个 完美 的 分 类 需 。 

接 下 来 ,我 们 考虑 另外 一 个 混 消 矩阵 ， 这 次 的 矩阵 只 针对 一 个 简单 的 二 类 问题 。 在 表 7-3 中 ， 
给 出 了 该 混 清 和 矩阵。 在 这 个 二 类 问题 中 ， 如 采 将 一 个 正 例 判 为 正 例 ,那么 就 可 以 认为 产生 了 一 个 
真正 例 ( True Positive，TP， 也 称 丰 阳 ); 如 果 对 一 个 反例 正确 地 判 为 反例 ， 则 认为 产生 了 一 个 真 
反例 (True Negative, TN, 也 称 真 阴 )。 相应 地 , 为 外 两 种 情况 则 分 别称 为 伪 反 例 ( False Negative， 
FN， 也 称 假 了 明 ) 和 伪 正 例 ( False Positive，FP， 也 称 假 阳 )。 这 4 种 情况 如 表 7-3 所 示 。 


表 7-3 一 个 二 类 问题 的 混淆 和 矩阵， 其 中 的 输出 采用 了 不 同 的 类 别 标 签 
预测 结果 
+1 一 
+1 真正 例 (TP ) 伪 反 例 (FN ) 
一 ] 伪 正 例 (FP ) 真有 反例 (TN ) 


在 分 类 中 ， 当 某 个 类 别 的 重要 性 高 于 其 他 类 别 时 ， 我 们 就 可 以 利用 上 述 定 义 来 定义 出 多 个 比 错 
误 率 更 好 的 新 指标 。 第 一 个 指标 是 正确 率 〈Precision )， 它 等 于 TP/(TP+FP)， 给 出 的 是 预测 为 正 例 的 
样本 中 的 真正 正 例 的 比例 。 第 二 个 指标 是 召回 率 〈Recall )， 它 等 于 TP/ATP+FN)， 给 出 的 是 预测 为 正 
例 的 真实 正 例 占 所 有 真实 正 例 的 比例 。 在 则 回 率 很 大 的 分 类 天 中 ， 真 正 判 错 的 正 例 的 数目 并 不 多 。 

我 们 可 以 很 容易 构造 一 个 高 正确 座 或 高 吾 回 率 的 分 类 带 , 但 是 很 难 同时 保证 两 者 成 立 。 如 来 
将 任何 样本 都 判 为 正 例 , 那么 召回 率 达到 百分之百 而 此 时 正确 率 很 低 。 构建 一 个 同时 使 正确 率 和 
介 回 率 最 大 的 分 类 俘 是 具有 挑 碾 性 的 。 














真实 结果 
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兄 一 个 用 于 度量 分 类 中 的 非 均 衡 性 的 工具 是 ROC 曲 线 ( ROC curve ), ROC 人 代表 接收 者 操作 特 
征 (receiver operating characteristic )， 它 最 早 在 二 战 期 间 由 电气 工程 师 构 建 雷 达 系 统 时 使 用 过 。 
图 7-3 给 出 了 一 条 ROC 曲 线 的 例子 。 


AdaBoost 马 疝 病 检测 系统 的 ROC 曲 线 


1.0 


0.8 


0.6 


0.2 





“4.0 0.2 0.4 0.6 0.8 1.0 
假 阳 率 


图 7-3 ”利用 10 个 单 层 决策 树 的 AdaBoost 马 疝 病 检测 系统 的 ROC 曲 线 


在 图 7-3 的 ROC 曲 线 中 , 给 出 了 两 条 线 , 一 条 虚线 一 条 实 线 。 图 中 的 槛 轴 是 伪 正 例 的 比例 ( 假 
阳 率 =FP/(FP+TN) )， 而 纵 轴 是 真正 例 的 比例 ( 真 阳 率 =TP/(TP+FN) )。ROC 曲 线 给 出 的 是 当 靖 值 
变化 时 假 阳 率 和 真 阳 率 的 变化 情况 。 左 下 角 的 点 所 对 应 的 是 将 所 有 样 例 判 为 反例 的 情况 ， 而 右上 
角 的 点 对 应 的 则 是 将 所 有 样 例 判 为 正 例 的 情况 。 虚 线 给 出 的 是 随机 猜测 的 结果 曲线 。 

ROC 曲 线 不 但 可 以 用 于 比较 分 类 大 ， 还 可 以 基于 成 本 效益 (cost-versus-benefit ) 分 析 来 做 出 
决策 。 由 于 在 不 同 的 国 值 下 , 不 同 的 分 类 融 的 表现 情况 可 能 各 不 相同 ， 因 此 以 某 种 方式 将 它们 组 
合 起 来 或 许 会 更 有 和 意义。 如 采 只 是 价 单 地 观察 分 类 天 的 错误 率 , 那么 我 们 就 难以 得 到 这 种 更 深入 
的 洞察 效果 了 。 

在 理想 的 情况 下 , 最 佳 的 分 类 需 应 该 尽 可 能 地 处 于 左上 角 , 这 就 意味 着 分 类 需 在 假 阳 率 很 低 
的 同时 获得 了 很 高 的 真 阳 率 。 例如 在 垃圾 邮件 的 过 滤 中 ， 这 就 相当 于 过 滤 了 所 有 的 垃圾 邮件 , 但 
没有 将 任何 合法 邮件 误 识 为 垃圾 邮件 而 放 和 人 垃圾 邮件 的 文件 夹 中 。 

对 不 同 的 ROC 曲 线 进 行 比 较 的 一 个 指标 是 曲线 下 的 面积 (Area Unser the Curve, AUC ), AUC 
给 出 的 是 分 类 需 的 平均 性 能 值 ， 当 然 它 并 不 能 完全 代替 对 整 条 曲线 的 观察 。 一 个 完美 分 类 天 的 
AUC 为 1.0， 而 随机 猜测 的 AUC 则 为 0.5。 

为 了 画 出 ROC 曲 线 , 分 类 天 必须 提供 每 个 样 例 被 判 为 阳性 或 者 阴性 的 可 信 程 度 值 。 尽 管 大 多 
数 分 类 需 都 能 做 到 这 一 点 ,但 是 通 稼 情况 下 ,这 些 值 会 在 最 后 输出 离散 分 类 标签 之 前 被 清除 。 朴 
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紊 贝 叶 斯 能 够 提供 一 个 可 能 性 ， 而 在 Logistic 回 归 中 输入 到 Sigmoid 旺 数 中 的 是 一 个 数值 。 在 
AdaBoost 和 SVM 中 ， 都 会 计算 出 一 个 数值 然后 输入 到 sign () 函数 中 。 所 有 的 这 些 值 都 可 以 用 于 
衡量 给 定 分 类 需 的 预测 强度 。 为 了 创建 ROC 曲 线 ， 首 先 要 将 分 类 样 例 按照 其 预测 强度 排序 。 先 从 
排名 最 低 的 样 例 开始 ,所 有 排名 更 低 的 样 例 都 被 判 为 反例 , 而 所 有 排名 更 高 的 样 例 都 被 判 为 正 例 。 
该 情况 的 对 应 点 为 <1.0,1.0>。 然 后 ， 将 其 移 到 排名 次 低 的 样 例 中 去 ， 如 采 该 样 例 属 于 正 例 ， 那 么 
对 真 阳 率 进 行 修 改 ; 如 采 该 样 例 属 于 反例 ， 那 么 对 假 阴 率 进行 修改 。 

上 上述 过 程 昕 起 来 有 点 容易 让 人 混淆， 但 是 如 果 阅 读 一 下 程序 清单 7-5 中 的 代码 ， 一 切 就 会 变 
得 一 目 了 然 了 。 打 开 adaboost.py 文 件 并 加 入 如 下 代码 。 
程序 清单 7-5 ”ROC 曲线 的 绘制 及 AUC 计 算 函 数 


def plotROC(predSstrengths, classLabels): 
import matplotlib.pyplot as plt 
cur = (1.0,1.0) 
ySum = 0.0 
numPosClas = sum(array (classLabels)==1.0) 
ysStep = 1/float (numposClas) 
xStep = 1/float (len(classLabels) -numposClas) -9 获取 排 好 序 的 索引 
sortedIndicies = predSstrengths.argsort  () 
fig = plt.figure() 
fig.clf () 
ax = plt.subplot (111) 
for index in sortedIindicies.tolist() [0] : 
if classLabels[index] == 1.0: 
delxXx = 0; delY = yStep; 
else: 
delxXx = xStep; delY = 0; 
ySum += CULT[Ij 
ax.plot([cur[0] ,cur[0] -delx], [cur[1] ,curl[l1] -delY], c='b') 

















cur = (cur[0] -delX,curl[l1] -delY) 
ax.plot([0,1],[0,1],'b--') 
plt .xlabel('False Positive Rate'); plt.ylabel('True Positive Rate') 


plt .title('ROC curve for AdaBoost Horse Colic Detection System') 
ax.axis([0,1,0,1]) 

plt.show() 

print "the Area Under the Curve is: ",ySum*xStep 


上 述 程序 中 的 函数 有 两 个 输入 参数 , 第 一 个 参数 是 一 个 NumPy 数 组 或 者 一 个 行 问 量 组 成 的 矩 
阵 。 该 参数 代表 的 则 是 分 类 带 的 预测 强度 。 在 分 类 各 和 训练 函数 将 这 些 数值 应 用 到 sign () 函数 
之 前 ,它们 就 已 经 产生 了 。 尺 管 很 快 就 可 以 看 到 该 函数 的 实际 执行 效 采 , 但 是 我 们 还 是 要 先 讨 论 
一 下 这 段 代码 。 也 数 的 第 二 个 输入 参数 是 先前 使 用 过 的 classLabels。 我 们 首先 时 入 pyplot， 
然后 构建 一 个 浮 点 数 二 元 组 ， 并 将 它 初始 化 为 (1,0,1.0)。 该 元 组 保留 的 是 绘制 光标 的 位 置 ， 变 量 
ysum 则 用 于 计算 AUC 的 值 。 接 下 来 ,通过 数组 过 滤 方 式 计算 正 例 的 数目 ， 并 将 该 值 赋 给 
numPosClas。 该 值 完 是 确定 了 在 y 坐 标 轴 上 的 步 进 数 日 ， 接 着 我 们 在 x 轴 和 y 轴 的 0.0 到 1.0 区 间 上 
绘 点 ， 因 此 y 轴 上 的 步 长 是 1.0/numPosClas。 类 似 地 ， 就 可 以 得 到 x 轴 的 步 长 了 。 

接 下 来 ,我们 得 到 了 排序 索引 人 @, 但 是 这 些 索引 是 按照 最 小 到 最 大 的 顺序 排列 的 ， 因 此 我 们 
需要 从 点 <1.0,1.0> 开 始 绘 ， 一 直到 <0,0>。 跟 着 的 三 行 代码 则 是 用 于 构建 画笔 ， 并 在 所 有 排序 值 
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上 进行 循环 。 这 些 值 在 一 个 NumPy 数 组 或 者 矩阵 中 进行 排序 ，Python 则 需要 一 个 表 来 进行 迭代 循 
环 ， 因 此 我 们 需要 调用 tolist() 方 法 。 当 遍历 表 时 ， 每 得 到 一 个 标签 为 1.0 的 类 ， 则 要 沿 着 y 轴 
的 方 癌 下 降 一 个 步 长 ， 即 不 断 降 低 真 阳 率 。 类 似 地 ， 对 于 每 个 其 他 类 别 的 标签 ， 则 是 在 x 轴 方向 
上 倒退 了 一 个 步 长 〈 假 阴 率 方向 )。 上 述 代 码 只 关注 1 这 个 类 别 标签 ， 因 此 就 无 所 谓 是 采用 1/0 标 
签 还 是 +1/ 王 1 标签 。 

为 了 计算 AUC,， 我 们 需要 对 多 个 小 矩形 的 面积 进行 累加 。 这 些小 和 矩形 的 宽度 是 xstep， 因 此 
可 以 先 对 所 有 矩形 的 高 度 进行 累加 ， 最 后 再 乘 以 xstep 得 到 其 总 面积 。 所 有 高 度 的 和 (ysum ) 随 
者 x 轴 的 每 次 移动 而 渐次 增加 。 一 旦 决定 了 是 在 x 轴 还 是 y 轴 方 同 上 进行 移动 的 ， 我 们 就 可 以 在 当 
前 点 和 新 点 之 间 男 出 一 条 线段 。 然 后 ， 更 新 当前 点 cur。 最 后 ， 我 们 就 会 得 到 一 个 像样 的 绘图 并 
将 AUC 打 印 到 终端 输出 。 

为 了 了 解 实际 运行 效果 ， 我 们 需要 将 adaboostTrainDs () 的 最 后 一 行 代码 蔡 换 成 : 

return weakClassArr,aggClassEst 
以 得 到 aggclassEst 的 值 。 然后 ， 在 Python 提示 符 下 键入 如 下 命令 : 


>>> reload (adaboost) 
<module 'adaboost' from 'adaboost .pyc'> 
>>> datArr,labelArr = adaboost.loadDataSet ('horseColicTraining2 .txt') 
>>> classifierArray,aggClassEst = 
adaboost .adaBoostTrainDs (datArr, labelArr,10) 
>>> adaboost .plotROC (aggClassEst.T,1labelArr) 
the Area Under the Curve is: 0.858296963506 


这 时 ， 我 们 也 会 了 解 到 和 图 7-3 一 样 的 ROC 曲 线 。 这 是 在 10 个 弱 分 类 器 下 ，AdaBoost 算 法 性 
能 的 结果 。 我 们 还 记得 ， 当 初 我 们 在 50 个 弱 分 类 融 下 得 到 了 最 优 的 分 类 性 能 ,那么 这 种 情况 下 的 
ROC 曲 线 会 如 何 呢 ? 这 时 的 AUC 是 不 是 更 好 呢 ? 


7.7.2 ”基于 代价 函数 的 分 类 器 决策 控制 


除了 调 布 分 类 融 的 国 值 之 外 , 我 们 还 有 一 些 其 他 可 以 用 于 处 理 非 均衡 分 类 代价 的 方法 , 其 中 
的 一 种 称 为 代价 敏感 的 学 习 ( cost-sensitive learning )。 考 虚 表 7-4 中 的 代价 和 矩阵， 第 一 张 表 给 出 的 
是 到 目前 为 止 分 类 带 的 代价 矩阵 ( 代价 不 是 0 就 是 1 )。 我 们 可 以 基于 该 代价 矩阵 计算 其 总 代价 : 
TP*0+FN*1+FP*1+TN*0。 接 下 来 我 们 考虑 下 面 的 第 二 张 表 ， 基 于 该 代价 和 矩阵 的 分 类 代价 的 计算 
公式 为 : TP* (-5)+EFNx1+EP*50+TNx0。 采 用 第 二 张 表 作为 代价 矩阵 时 ,两 种 分 类 错误 的 代价 是 
不 一 样 的 。 类 似 地 ， 这 两 种 正确 分 类 所 得 到 的 收益 也 不 一 样 。 如 果 在 构建 分 类 器 时 ， 知 道 了 这 些 
代价 值 ， 那 么 就 可 以 选择 付出 最 小 代价 的 分 类 妖 。 

在 分 类 算法 中 ,我们 有 很 多 方法 可 以 用 来 引入 代价 信息 。 在 AdaBoost 中 ,可 以 基于 代价 函数 
来 调整 错误 权重 同 量 D。 在 朴 桑 贝 叶 斯 中 ， 可 以 选择 具有 最 小 期 望 代价 而 不 是 最 大 概率 的 类 别 作 
为 最 后 的 结果 。 在 SYM 中 ， 可 以 在 代价 函数 中 对 于 不 同 的 类 别 选 择 不 同 的 参数 c。 上 述 做 法 就 会 
给 较 小 类 更 多 的 权重 ， 即 在 训练 时 ， 小 类 当中 只 允许 更 少 的 错误 。 
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表 7-4 ”一 个 二 类 问题 的 代价 矩阵 
预测 结果 


十 ] 一 ] 


真实 结果 十 ] 0 ] 
具 头 # 
口 | 1 0 
预测 结果 
十 ] 一 ] 
十 ] 一 ] 
真实 结果 
二 0 0 


7.7.3 处理 非 均衡 问题 的 效 据 抽样 方法 


另外 一 种 针对 非 均 衡 问 题 调 节 分 类 顺 的 方法 ,就 是 对 分 类 需 的 训练 数据 进行 改造 。 这 可 以 通 
过 欠 抽 样 ( undersampling ) 或 者 过 抽样 ( oversampling ) 来 实现 。 过 抽样 意味 着 复制 样 例 ， 而 欠 
抽样 意味 着 删除 样 例 。 不管 采用 哪 种 方式 ,数据 都 会 从 原始 形式 改造 为 新 形式 。 抽 样 过 程 则 可 以 
通过 随机 方式 或 者 某 个 预定 方式 来 实现 。 

通常 也 会 存在 某 个 罕见 的 类 别 需 要 我 们 来 识别 ， 比 如 在 信用 卡 欺 诈 当 中 。 如 前 所 述 ， 正 例 类 
别 属于 罕见 类 别 。 我 们 希望 对 于 这 种 罕见 类 别 能 尽 可 能 保留 更 多 的 信息 ， 因 此 ,我 们 应 该 保留 正 
例 类 别 中 的 所 有 样 例 ， 而 对 反例 类 别 进行 欠 抽 样 或 者 样 例 删 除 处 理 。 这 种 方法 的 一 个 缺点 束 在 于 
要 确定 哪些 样 例 需 要 进行 吻 除 。 但 是 , 在 选择 别 除 的 样 例 中 可 能 携带 了 剩余 样 例 中 并 不 包含 的 有 
价值 信息 。 

上 述 问题 的 一 种 解决 办 法 , 就 是 选择 那些 离 决策 边界 较 远 的 样 例 进行 删除 。 假定 我 们 有 一 个 
数据 集 , 其 中 有 50 例 信用 卡 欺 诈 交 易 和 5000 例 合法 交易 。 如 采 我 们 想 要 对 合法 交易 样 例 进 行 欠 抽 
样 处 理 , 使 得 这 两 类 数据 比较 均衡 的 话 ， 那么 我 们 就 需要 去 掉 4950 个 样 例 ， 而 这 些 样 例 中 可 能 
含 很 多 有 价值 的 信息 。 这 看 上 去 有 些 极端 ,， 因此 有 一 种 替代 的 策略 就 是 使 用 反例 类 别 的 从 抽 样 和 
正 例 类 别 的 过 抽样 相 混合 的 方法 。 

要 对 正 例 类 别 进 行 过 抽样 , 我 们 可 以 复制 已 有 样 例 或 者 加 入 与 已 有 样 例 相似 的 点 。 一 种 方法 
是 加 入 已 有 数据 点 的 插值 点 ， 但 是 这 种 做 法 可 能 会 导致 过 拟 合 的 问题 。 


7.8 ”本章 小 结 


集成 方法 通过 组 合 多 个 分 类 器 的 分 类 结果 , 获得 了 比 简单 的 单 分 类 器 更 好 的 分 类 结果 。 有 -- 
些 利用 不 同 分 类 器 的 集成 方法 ， 但 是 本 章 只 介绍 了 那些 利用 同一 类 分 类 器 的 集成 方法 。 

多 个 分 类 器 组 合 可 能 会 进一步 凸显 出 单 分 类 器 的 不 足 ， 比 如 过 拟 合 问题 。 如 果 分 类 器 之 间 差 
别 显著 , 那么 多 个 分 类 器 组 合 就 可 能 会 缓解 这 一 问题 。 分 类 器 之 间 的 差别 可 以 是 算法 本 身 或 者 是 
应 用 于 算法 上 的 数据 的 不 同 。 
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本 和 草 介 绍 的 两 种 集成 方法 是 bagging 和 boosting。 在 bagging 中 ， 是 通过 随机 抽样 的 蔡 换 方式 ， 
得 到 了 与 原始 数据 集 规模 一 样 的 数据 集 。 而 boosting 在 bagging 的 思路 上 更 进 了 一 步 ， 它 在 数据 集 
上 顺序 应 用 了 多 个 不 同 的 分 类 各 。 男 一 个 成 功 的 集成 方法 就 是 随机 和 森林 , 但 是 由 于 随机 和 森林 不 如 
AdaBoost 流 行 ， 所 以 本 书 并 没有 对 它 进 行 介 绍 。 

本 和 草 介 绍 了 boosting 方 法 中 最 流行 的 一 个 称 为 AdaBoost 的 算法 。AdaBoost 以 弱 学 习 需 作为 基 
分 类 需 ， 并 且 输 入 数据 ， 使 其 通过 权重 回 量 进 行 加 权 。 在 第 一 次 迭代 当中 ， 所 有 数据 都 等 权重 。 
但 是 在 后 续 的 迭代 当中 ， 前 次 迭代 中 分 错 的 数据 的 权重 会 增 大 。 这 种 针对 错误 的 调 市 能 力 正 是 
AdaBoost 的 长 处 。 

本 章 以 单 层 雇 策 树 作 为 弱 学 习 咒 构建 了 AdaBoost 分 类 器 。 实 际 上 ，AdaBoost 范 数 可 以 应 用 于 
任意 分 类 希 ， 只 要 该 分 类 带 能 够 处 理 加 权 数 据 即 可 。AdaBoost 算 法 十 分 强大 , 它 能 够 快速 处 理 其 
他 分 类 需 很 难处 理 的 数据 集 。 

非 均衡 分 类 问题 是 指 在 分 类 融 训 练 时 正 例 数 目 和 反例 数目 不 相等 〈 相 差 很 大 )。 该 问题 在 错 
分 正 例 和 反例 的 代价 不 同时 也 存在 。 本 草 不 仅 考 察 了 一 种 不 同 分 类 需 的 评价 方法 一 一 ROC 有 遇 线 ， 
还 介绍 了 正确 率 和 召回 率 这 两 种 在 类 别 重 要 性 不 同时 ， 度 量 分 类 天 性 能 的 指标 。 

本 草 介 绍 了 通过 过 抽样 和 丈 抽样 方法 来 调和 数据 集中 的 正 例 和 反例 数目 。 另 外 一 种 可 能 更 好 
的 非 均 衡 问题 的 处 理 方法 ， 就 是 在 训练 分 类 带 时 将 错误 的 代价 考虑 在 内 。 

到 目前 为 止 , 我 们 介绍 了 一 系列 强大 的 分 类 技术 。 本 草 是 分 类 部 分 的 最 后 一 草 ， 接 下 来 我 们 
将 进入 男 一 类 监督 学 习 算 法 一 一 回归 方法 ， 这 也 将 完善 我 们 对 监督 方法 的 学 习 。 回 归 很 像 分 类 ， 
但 是 和 分 类 输出 标 称 型 类 别 值 不 同 的 是 ， 回 归 方 法 会 预测 出 一 个 连续 值 。 
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本 书 的 第 二 部 分 由 第 8 章 和 第 9 章 组 成 ， 主 要 介绍 了 回归 方法 。 回 归 是 第 1 ~ 7 章 的 监督 
学 习 方 法 的 延续 。 前 面 说 过 ， 监 督学 习 指 的 古 有 目标 变量 或 预测 目标 的 机 如 学 习 方 法 。 回 归 与 
分 类 的 不 同 ， 就 在 于 其 目标 变量 是 连续 数值 型 。 

第 8 革 介 绍 了 线性 回归 、 局 部 加 权 线 性 回归 和 收缩 方法 。 第 9 章 则 借用 了 第 3 章 树 构建 的 
一 些 思想 并 将 其 应 用 于 回归 中 ， 从 而 得 到 了 树 回归 。 





预测 效 什 型 效 据 : 回归 





本 章 内 容 

D 线性 回归 

口 局 部 加 权 线 性 回归 

口 岭 回 归 和 逐步 线性 回归 
口 预测 鲍鱼 年 龄 和 玩具 售 价 


本 书 前 面 的 章节 介绍 了 分 类 , 分 类 的 目标 变量 是 标 称 型 数据 ， 而 本 章 将 会 对 连续 型 的 数据 做 
出 预测 。 读 者 很 可 能 有 这 样 的 疑问 :“ 回 归 能 用 来 做 些 什 么 呢 ?””。 我 的 观点 是 ,回归 可 以 做 任何 
事情 。 然而 大 多 数 公 司 和 常常 使 用 回归 法 做 一 些 比较 沉 闽 的 事情 , 例如 销售 量 预测 或 者 制造 缺陷 预 
测 。 我 最 近 看 到 一 个 比较 有 新 意 的 应 用 ， 就 是 预测 名 人 的 离婚 座 。 

本 章 首先 介绍 线性 回归 ,包括 其 名 称 的 由 来 和 Python 实现 .在 这 之 后 引入 了 局 部 平滑 技术 ， 
分 析 如 何 更 好 地 拟 合 数据 。 接 下 来 ， 本 章 将 探讨 回归 在 “ 穴 拟 合 ”情况 下 的 缩减 〈shrinkage ) 
技术 ， 探 讨 偶 差 和 方差 的 概念 。 最 后 ， 我 们 将 融合 所 有 技术 ， 预 测 鲍鱼 的 年 龄 和 玩具 的 售 价 。 
此 外 为 了 获取 一 些 玩具 的 数据 , 我 们 还 将 使 用 Python 来 做 一 些 采 集 的 工作 。 这 一 章 的 内 容 会 十 


分 丰富 。 
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线性 回归 
优点 : 结果 易于 理解 ， 计 算 上 不 复杂 。 
缺点 : 对 非 线 性 的 数据 拟 合 不 好 。 
适用 数据 类 型 : 数值 型 和 标 称 型 数据 。 


回归 的 目的 是 预测 数值 型 的 日 标 值 。 最 下 接 的 办 法 是 依据 输入 写 出 一 个 目标 值 的 计算 公式 。 
假如 你 想 要 预测 姐姐 男友 汽车 的 功率 大 小 ， 可 能 会 这 么 计算 : 


HorsePower = 0.00l5*annualSalary -0.99*hoursListeningToPublicRadio 
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这 就 是 所 谓 的 回归 方程 (regression equation ), 其 中 的 0.0015 和 -0.99 称 作 回 归 系 数 ( regression 
weights )， 求 这 些 回 归 系 数 的 过 程 就 是 回归 。 一 旦 有 了 这 些 回 归 系 数 ， 再 给 定 输 入 ， 做 预测 就 非 
常 容易 了 。 具 体 的 做 法 是 用 回归 系数 乘 以 输入 值 ， 再 将 结果 全 部 加 在 一 起 ， 就 得 到 了 预测 值 ”。 

说 到 回归 ， 一 般 都 是 指 线性 回归 (linear regression )， 所 以 本 和 草 里 的 回归 和 线性 回归 代表 同一 
个 意思 。 线性 回归 童 味 着 可 以 将 输入 项 分 别 乘 以 一 些 常 量 , 再 将 结果 加 起 来 得 到 输出 。 需 要 说 明 
的 是 ,存在 另 一 种 称 为 非 线 性 回归 的 回归 模型 ， 该 模型 不 认同 上 面 的 做 法 ， 比 如 认为 输出 可 能 是 
输入 的 乘积 。 这 样 ， 上 面 的 功率 计算 公式 也 可 以 写 做 : 

HorsePower = 0.0015*annualSalary/hoursListeningToPublicRadio 


这 就 是 一 个 非 线 性 回归 的 例子 , 但 本 章 对 此 不 做 深入 讨论 。 











回归 的 一 般 方法 

(1) 收集 数据 : 采用 任意 方法 收集 数据 。 

(2) 准备 数据 : 回归 需要 数值 型 数据 ， 标 称 型 数据 将 被 转 成 二 值 型 数据 。 

(3) 分 析 数 据 : 绘 出 数据 的 可 视 化 二 维 图 将 有 助 于 对 数据 做 出 理解 和 分 析 ， 在 采用 缩减 法 
求 得 新 回归 系数 之 后 ， 可 以 将 新 拟 合 线 绘 在 图 上 作为 对 比 。 

(4) 训练 算法 : 找到 回归 系数 。 

(5) 测试 算法 : 使 用 R- 或 者 预测 值 和 数据 的 拟 合 度 ， 来 分 析 模 型 的 效果 。 

(6) 使 用 算法 : 使 用 回归 ， 可 以 在 给 定 输入 的 时 候 预 测 出 一 个 数值 ， 这 是 对 分 类 方法 的 提 
升 ， 因 为 这 样 可 以 预测 连续 型 数据 而 不 仅仅 是 离散 的 类 别 标 签 。 





“回归 ”一 词 的 来 历 
今天 我 们 所 知道 的 回归 是 由 达尔 文 ( Charles Darwin ) 的 表 兄 弟 Francis Galton 发 明 的 -Galton 
于 1877 年 完成 了 第 一 次 回归 预测 ， 目 的 是 根据 上 一 代 豌 豆 种 子 ( 双 亲 ) 的 尺寸 来 预测 下 一 代 豌 
豆 种 子 (孩子 ) 的 尺寸 。Galton 在 大 量 对 象 上 应 用 了 回归 分 析 ， 其 至 包括 人 的 身高 。 他 注意 到 ， 
如 果 双 亲 的 高 度 比 平均 高 度 高 ,他 们 的 子女 也 倾向 于 比 平均 高 度 高 , 但 尚 不 及 双亲 。 孩 子 的 高 
度 向 着 平均 高 度 回 退 (回归 )。Galton 在 多 项 研究 上 都 注意 到 这 个 现象 ， 所 以 尽管 这 个 英文 单 
词 跟 数值 预测 没有 任何 关系 ， 但 这 种 研究 方法 仍 被 称 作 回 归 2 。 


应 当 怎 样 从 一 大 堆 数 据 里 求 出 回归 方程 呢 ? 假定 输入 数据 存放 在 和 矩阵 xz 中， 而 回归 系 效 存放 
在 问 量 w 中 。 那 么 对 于 给 定 的 数据 X ， 预 测 结 东 将 会 通过 Y,=Xw 给 出 。 现 在 的 问题 是 ， 手 里 有 一 
些 x 和 对 应 的 y， 怎 样 才能 找到 w 呢 ?一 个 第 用 的 方法 就 是 找 出 使 误差 最 小 的 w。 这 里 的 误差 是 指 
预测 y 值 和 真实 y 值 之 间 的 差 值 , 使 用 该 误差 的 简单 蛇 加 将 使 得 正 差 值 和 仙 差 值 相互 抵消 , 所 以 我 
们 采用 平方 误差 。 

















J 此 处 的 回归 系数 是 一 个 向 量 ， 输 入 也 是 向 量 ， 这 些 运算 也 就 是 求 出 二 者 的 内 积 。 译 者 注 


@) Ian Ayres, Super Crunchers (Bantam Books, 2008), 24. 
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平方 误差 可 以 写 做 : 
> ,0 -x w) 


用 和 矩阵 表示 还 可 以 写 做 (y-Xw)”(y-Xw) 。 如 果 对 w 求 导 , 得 到 x (Y-xw) ， 令 其 等 于 零 ， 解 出 
w 如 下 : 





w=(X X) Xy 


w 上 方 的 小 标记 表示 ， 这 是 当前 可 以 估计 出 的 w 的 最 优 解 。 从 现 有 数据 上 估计 出 的 w 可 能 并 不 
是 数据 中 的 真实 w 值 ， 所 以 这 里 使 用 了 一 个 “ 帽 ”符号 来 表示 它 仪 是 w 的 一 个 最 佳 估计 。 

值得 注意 的 是 ， 上 述 公 式 中 包含 (XX) ”， 也 就 是 需要 对 算 阵 求 逆 ， 因 此 这 个 方程 只 在 逆 矩 
阵 存在 的 时 候 适 用 。 然 而 ， 和 矩阵 的 逆 可 能 并 不 存在 ， 因 此 必须 要 在 代码 中 对 此 作出 判断 。 

上 述 的 最 佳 w 求 解 是 统计 学 中 的 常见 问题 ,除了 矩阵 方法 外 还 有 很 多 其 他 方法 可 以 解决 。 通 
过 调用 NumPy 库 里 的 矩阵 方法 ， 我们 可 以 仅 使 用 几 行 代码 就 完成 所 需 功 能 。 该 方法 也 称 作 OLS， 
意思 是 “普通 最 小 二 乘法 ”( ordinary least squares )。 


下 面 看 看 实际 效 订 ， 对 于 图 8-1 中 的 散 点 图 ， 下 面 来 介绍 如 何 给 出 该 数据 的 最 佳 拟 合 百 线 。 





























30.6 0.2 0.4 0.6 0.8 1.0 
x 


图 8-1 ”从 ex0.txt 得 到 的 样 例 数据 


程序 清单 8-1 可 以 完成 上 述 功 能 。 打 开 文 本 编辑 右 并 创建 一 个 新 的 文件 regression.py， 添 加 其 
中 的 代码 。 
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程序 清单 8-1 标准 回归 水 数 和 数据 导入 函数 


from numpy import * 


def loadDataset (fileName): 
numFeat = len(open(fileName) .readline() .split('\t')) - 1 
dataMat = []; labelMat = [] 
fr = open (fileName) 
for line in fr.readlines () : 
lineArr =[] 
curLine = line.strip() .split('\t') 
for i in range (numFeat): 
lineArr.append (float (curLine[il])) 
dataMat .append (lineArr) 
labelMat .append (float (curLine[-1])) 
return dataMat, labelMat 


def standRegres (xArr,yArr): 
xMat = mat (xArr); yMat = mat (yArr) .T 
XJTX = XMat .T*xMat 


if linalg.det (xTx) == 0.0: 
print "This matrix is singular, cannot do inverse" 
return 


WS = XIX.I * (xMat.T*yMat) 
return ws 


第 一 个 函数 10adDataSet () 与 第 7 章 的 同名 函数 是 一 样 的 ,该 函数 打开 一 个 用 tab 键 分 隅 的 文 
本 文件 ， 这 里 仍然 默认 文件 每 行 的 最 后 一 个 值 是 目标 伸 。 第 二 个 也 数 standRegres () 用 来 计算 
最 佳 拟 合 直 线 。 该 函数 痛 和 完 谈 入 x 和 y 并 将 它们 保存 到 和 矩阵 中 ; 然后 计算 xX， 然 后 判断 它 的 行列 
式 是 否 为 和 过， 如 采 行 列 式 为 去 , 那么 计算 逆 和 矩阵 的 时 候 将 出 现 错误 。NumPy 提 供 一 个 线性 代数 的 
库 linalg， 其 中 包含 很 多 有 用 的 函数 。 可 以 二 接 调用 linalg.aet () 来 计算 行列 式 。 最 后 ， 如 采 行 
列 式 非 去 ， 计 算 并 返回 w。 如 末 没 有 检查 行列 式 是 否 为 零 台 坛 图 计算 矩阵 的 逆 ， 将 会 出 现 错误 。 
NumpPy 的 线性 代数 库 还 提供 一 个 函数 来 解 示 知 矩 阵 ， 如 果 使 用 该 函数 ， 那 么 代码 ws=xTx. 工 * 
(xMat .T*yMat) 应 写成 ws=linalg .Solve (xTx, xMat.T*yMatT)., 

下 面 看 看 实际 效果 ， 使 用 1oadDataSet () 将 从 数据 中 得 到 两 个 数组 ,分 别 存 放 在 x 和 y 中 。 
与 分 类 算法 中 的 类 别 标 签 类 似 ， 这 里 的 y 是 目标 值 。 

>>> import regression 


>>> from numpy import * 
>>> XArr,yArr=regression.loadDataSet ('ex0 .txt') 


首先 看 前 两 条 数据 : 
>>> XAIrr[0:2] 
[[1.0, 0.067732000000000001],， [1.0, 0.42781000000000002]] 


第 一 个 值 总 是 等 于 1.0， 即 x0。 我 们 假定 偏 移 量 就 是 一 个 第 数 。 第 二 个 值 xX1， 也 就 是 我 们 图 中 的 
横 坐 标 值 。 
现在 看 一 下 standRegres () 困 数 的 执行 效果 : 


























>>> WS = regression.standRegres (xArr,YyArr) 
>>> WS 
matrix([[ 3.00774324] 


[ 1.69532264]]) 
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ws 存放 的 就 是 回归 系数 。 在 用 内 积 来 预测 y 的 时 候 ， 第 一 维 将 习 以 前 面 的 沼 数 X0， 第 二 


维 将 乘 以 输入 变量 x1。 因 为 前 面 假定 了 x0=1， 所 以 最 终 会 得 到 y=ws [0]+ws [1]*X1。 这 里 的 y 
实际 是 预测 出 的 , 为 了 和 真实 的 y 值 区 分 开 来 , 我 们 将 它 记 为 yrHat。 下面 使 用 新 的 ws 值 计算 yHat: 


>>> XMat=mat (xArr) 
>>> yMat=mat (yArr) 
>>> yHat = xMat*ws 


现在 就 可 以 绘 








数据 集散 点 图 和 最 佳 拟 合 直线 图 : 


import matplotlib.pyplot as plt 

fig = plt.figure() 

ax = fig.add subplot (111) 

ax.scatter (xMat[:,1] .flatten().A[0], yMat.T[:,0] .flatten().A[O]) 
<matplotlib.collections.CircleCollection object at Ox04ED9D30> 


上 述 命令 创建 了 图 像 并 绘 出 了 原始 的 数据 。 为 了 绘制 计算 出 的 最 佳 拟 合 直线 , 需要 绘 出 yHat 
的 值 。 如 采 百 线 上 的 数据 点 次 序 混 乱 ， 绘 图 时 将 会 出 现 问题 ， 所 以 首先 要 将 点 按照 升序 排列 : 


之 之 之 


之 之 之 


之 之 之 


之 之 之 


XCopy=xMat .copy () 

XCopy .sort (0 ) 
yHat=xCopy*ws 

ax.plot (xCopy[:,1],yHat) 


[<matplotlib.lines.Line2D object at 0x0343F570>] 


>>> plt.show() 


我 们 将 会 看 到 类 似 于 图 8-2 的 效果 图 。 
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图 8-2 ”ex0.txt 的 数据 集 与 它 的 最 佳 拟 合 下 线 











几乎 任 一 数据 集 都 可 以 用 上 述 方法 建立 模型 那么， 如 何 判 断 这 些 模型 的 好 坏 呢 ”比较 一 下 图 
8-3 的 两 个 子 图 ， 如 果 在 两 个 数据 集 上 分 别 作 线 性 回归 ， 将 得 到 完全 一 样 的 模型 ( 拟 合 直线 )。 显 然 
两 个 数据 是 不 一 样 的 , 那么 模型 分 别 在 二 者 上 的 效果 如 何 ? 我 们 当 如 何 比较 这 些 效 来 的 好 坏 呢 ? 有 
种 方法 可 以 计算 预测 值 yHat 序 列 和 真实 值 y 序 列 的 匹配 程度 ， 那 就 是 计算 这 两 个 序列 的 相关 系数 。 
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图 8-3 ”具有 相同 回归 系数 (0 和 2.0 ) 的 两 组 数据 。 上 图 的 相关 系数 是 0.58， 而 下 图 的 
相关 系数 是 0.99 





在 Python 中 ，NumPy 库 提供 了 相关 系数 的 计算 方法 : 可 以 通过 命令 corrcoef (yEstimate， 
yactual) 来 计算 预测 值 和 真实 值 的 相关 性 。 下 面 我 们 就 在 前 面 的 数据 集 上 做 个 实验 。 

与 之 前 一 样 ， 首 先 计算 出 y 的 预测 值 yMat: 

>>> yHat = xMat*ws 
再 来 计算 相关 系数 ( 这 时 需要 将 yMat 转 置 ， 以 保证 两 个 向 量 都 是 行 向 量 ): 

>>> corrcoef (yHat .T, yMat) 


array([[ 1. ， 0.98647356],，, 
[ 0.98647356, 1. ] ] ) 


该 矩阵 包含 所 有 两 两 组 合 的 相关 系数 。 可 以 看 到 ， 对 角 线 上 的 数据 是 1.0， 因 为 yYMat 和 自己 的 匹 
配 是 最 完美 的 ， 而 YHat 和 yMat 的 相关 系数 为 0.98。 

最 佳 拟 合 直 线 方法 将 数据 视 为 直线 进行 建 模 ， 具 有 十 分 不 错 的 表现 。 但 是 网 8-2 的 数据 当中 
似乎 还 存在 其 他 的 淤 在 模式 。 那 么 如 何 才能 利用 这 些 模式 呢 ? 我 们 可 以 根据 数据 来 局 部 调整 预 
测 ， 下 面 就 会 介绍 这 种 方法 。 


8.2 局 部 加 权 线 性 回归 


线性 回归 的 一 个 问题 是 有 可 能 出 现 欠 拟 合 现象 ， 因 为 它 求 的 是 具有 最 小 均 方 误差 的 无 仿 估 
计 。 显而易见 ， 如 果 模 型 欠 拟 合 将 不 能 取得 最 好 的 预测 效果 。 所 以 有 些 方法 允许 在 估计 中 引入 一 
些 偏 差 ， 从 而 降低 预测 的 均 方 误差 。 
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其 中 的 一 个 方法 是 局 部 加 权 线 性 回归 ( Locally Weighted Linear Regression，LWLR )。 在 该 算 
法 中 ， 我 们 给 竺 预测 点 附近 的 每 个 点 赋予 一 定 的 权重 ; 然后 与 8.1 广 类似， 在 这 个 子 集 上 基于 最 
小 均 方差 来 进行 普通 的 回归 ,与 KNN 一 样 , 这 种 算法 每 次 预测 均 需 要 事先 选取 出 对 应 的 数据 子 集 。 
该 算法 解 出 回归 系数 w 的 形式 如 下 : 








w=(X' WX) XW 
其 中 w 是 一 个 矩阵， 用 来 给 每 个 数据 点 赋予 权重 。 
LWLR 使 用 “ 核 ”( 与 支持 向 量 机 中 的 核 类 似 ) 来 对 附近 的 点 赋予 更 高 的 权重 "。 核 的 类 型 可 
以 自由 选择 ， 最 第 用 的 核 就 是 高 斯 核 ， 蜗 斯 核对 应 的 权重 如 下 : 


XxX? 一 "| 
W( ZI) = exp 了 


这 样 就 构建 了 一 个 只 含 对 角 元 素 的 权重 矩阵 w， 并 且 点 x 与 x (i) 越 近 , w (i,1i) 将 会 越 大 。 上 
述 公 式 包含 一 个 需要 用 户 指定 的 参数 k, 它 决定 了 对 附近 的 点 赋予 多 大 的 权重 , 这 也 是 使 用 LWLR 
时 唯一 需要 考虑 的 参数 ， 在 图 8-4 中 可 以 看 到 参数 k 与 权重 的 关系 。 
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图 8-4 ”每 个 点 的 权重 图 (假定 我 们 正 预测 的 点 是 x = 0.5) ， 最 上 面 的 图 是 原始 数据 
集 ， 第 二 个 图 显示 了 当 k = 0.5 时 ， 大 部 分 的 数据 都 用 于 训练 回归 模型 ， 而 最 
下 面 的 图 显示 当 k = 0.01 时 ， 仪 有 很 少 的 局 部 点 补 用 于 训练 回归 模型 


下 面 看 看 模型 的 效 朱 ， 打 开 文 本 编辑 硕 ， 将 程序 清单 8-2 的 代码 添加 到 文件 regression.py 中 。 








J 读者 要 注意 区 分 这 里 的 权重 W 和 回归 系数 w; 与 KNN 一 样 ， 该 加 权 模 型 认为 样本 点 距离 越 近 ， 越 可 能 符合 同一 个 
线性 模型 。 一 一 译 者 注 
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程序 清单 8-2 局 部 加 权 线 性 回归 函数 


def lwlr (testPoint,xArr,yArr,k=1.0): 
xMat = mat (xArr); yMat = mat (yArr) .T 


m = shape (xMat) [0] .9 创建 对 角 和 矩 阵 

weights = mat (eye ( (m))) 

| a 权重 值 大 小 以 指数 级 衰减 
diffMat = testPoint - XMat []，:] 
weights[j,j] = exp (diffMat*diffMat.T/(-2.0*k**2)) 

XTIX = XMat.T * (weights * xMat) 

if linalg.det (xTx) == 0.0: 


print "This matrix is singular, cannot do inverse" 
return 

WwWS = XIX.I * (xMat.T * (welights * yMat)) 

return testPoint * ws 


def lwlrTest (testArr,xArr,yArr,k=1.0): 
m = shape (testArr) [0] 
yHat = zeros (m) 
for i in range (m) : 
yHat [i] = lwilr (testArr[il],xArr,yArr,k) 
return yHat 


程序 清单 8-2 中 代码 的 作用 是 ， 给 定 x 空 间 中 的 任意 一 点 ， 计 算出 对 应 的 预测 值 yHat。 池 数 
lwlr() 的 开头 与 程序 清单 8-1 类 似 ， ee 之 后 创建 对 角 权 重 和 矩阵 
weights 全 ,权重 和 矩阵 是 一 个 方 阵 ， 阶 数 等 于 样本 点 个 数 。 也 就 是 说 ,该 矩阵 为 每 个 样本 点 初始 
化 了 一 个 权重 。 接 着 ， 算 法 将 遍历 数据 集 ， 计 算 每 个 样本 点 对 应 的 权重 值 : 随 着 样本 点 与 待 预 测 
点 距离 的 递增 , 权重 将 以 指数 级 豪 减 @。 输入 参数 k 控 制 衰减 的 速度 。 与 之 前 的 函数 stand- 
Regress () 一 样 ， 在 权重 矩阵 计算 完毕 后 ， 就 可 以 得 到 对 回归 系数 ws 的 一 个 估计 。 

程序 清单 8-2 中 的 男 一 个 函数 是 lwlrTest () ， 用 于 为 数据 集中 每 个 点 调用 lwlr () ， 这 有 助 
于 求解 k 的 大 小 。 

下 面 看 看 实际 效果 ， 将 程序 清单 8-2 的 代码 加 入 到 regression.py 中 并 保存 ， 然 后 在 Python 提示 

符 下 输入 如 下 命令 : 


>>> reload (regression,) 
<module 'regression' from 'regression.py'> 


如 有 果 需 要 重新 载 人 数据 集 ， 则 输入 : 
>>> XArr,yArr=regression.loadDataSsSet ('ex0 .txt') 


可 以 对 单 点 进行 估计 : 


>>> yArr [0] 
3.1765129999999999 
>>> regression.1lwilr (xArr [0] ,xArr,yArr,1.0) 














matrix([[ 3.12204471]]) 
>>> regression.1lwilr (xArr[0] ,xArr,yArr,0.001) 
matrix([[ 3.20175729]]) 


为 了 得 到 数据 集 里 所 有 点 的 佑 计 ， 可 以 调用 lwlrTest () 困 数 : 


>>> yHat = regression.lwlrTest (xArr, xXxArr, yArr,0.003) 











144 第 8 章 ”预测 数值 型 数据 : 回归 





下 面 绘 出 这 些 佑 计 值 和 原始 值 ， 看 看 yHat 的 拟 合 效果 。 所 用 的 绘图 函数 需要 将 数据 点 按 序 
排列 ， 首 先 对 xArr 排 序 : 


xMat=mat (xArr) 


>>> srtInd = xMat[:,1] .argsort (0) 
>>> XxSort=xMat [srtInd] [:,0,:] 
然后 用 Matplotlib 绘 


>>> import matplotlib.pyplot as plt 

>>> fig = plt.figure() 

>>> ax = fig.add subplot (111) 

>>> ax.plot (xSort[:,1],yHat[srtIindl]) 

[<matplotlib.lines.Line2D object at Ox03639550>] 

>>> ax.scatter (xMat[:,1] .flatten() .A[O0], mat (yArr) .T.flatten().A[O0O] ， 
C='red'!') 

<matplotlib.collections.PathCollection object at Ox03859110> 

>>> plt.show() 


可 以 观察 到 如 图 8-5 所 示 的 效 采 。 图 8-5 给 出 了 Kk 在 三 种 不 同 取 值 下 的 结 采 图 。 当 k= 1.0 时 权重 
很 大 ， 如 同 将 所 有 的 数据 视 为 等 权重 ， 得 出 的 最 佳 拟 合 直 线 与 标准 的 回归 一 致 。 使 用 = 0.01 得 
到 了 非常 好 的 效果 ， 抓 住 了 数据 的 潜在 模式 。 下 图 使 用 k= 0.003 纳 入 了 太 多 的 噪声 点 ， 拟 合 的 直 
线 与 数据 点 过 于 贴近 。 所 以 ， 图 8-5 中 的 最 下 图 是 过 拟 合 的 一 个 例子 ， 而 最 上 图 则 是 欠 拟 合 的 一 
个 例子 。 下 一 市 将 对 过 拟 合 和 欠 拟 合 进 行 量化 分 析 。 
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图 8-5 ”使 用 3 种 不 同 平滑 值 绘 出 的 局 部 加 权 线 性 回归 结果 。 上 图 中 的 平滑 参数 k=1.0， 





中 图 k= 0.01， 下 图 k= 0.003。 可 以 看 到 ,k= 1.0 时 的 模型 效果 与 最 小 二 乘法 差 
不 多 ,k= 0.01 时 该 模型 可 以 挖 出 数据 的 潜在 规律 ， 而 k= 0.003 时 则 考虑 了 太 多 
的 噪声 ， 进 而 导致 了 过 拟 合 现象 
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局 部 加 权 线 性 回归 也 存在 一 个 问题 ， 即 增加 了 计算 量 ， 因 为 它 对 每 个 点 做 预测 时 都 必须 使 用 整 
个 数据 集 。 从 图 8-5 可 以 看 出 ,k=0.01 时 可 以 得 到 很 好 的 估计 , 但 是 同时 看 一 下 图 8-4 中 k= 0.01 的 情 
况 ， 就 会 发 现 大 多 数据 点 的 权重 都 接近 零 。 如 果 避 免 这 些 计算 将 可 以 减少 程序 运行 时 间 ， 从 而 缓解 
计算 量 增加 达 来 的 问题 。 

到 此 为 止 ， 我 们 已 经 介绍 了 找 出 最 佳 拟 合 直 线 的 两 种 方法 ,下 面 用 这 些 技术 来 预测 鲍鱼 的 
年 龄 。 


8.3 示例: 预测 鲍鱼 的 年 龄 


接 下 来 ， 我 们 将 回归 用 于 真实 数据 。 在 data 目 录 下 有 一 份 来 自 UCI 数 据 集合 的 数据 ， 记 录 了 
鲍鱼 〈 一 种 介 有 元 类 水 生动 物 ) 的 年 龄 。 例 鱼 年 龄 可 以 从 鲍鱼 元 的 层 数 推算 得 到 。 
在 regression.py 中 加 入 下 列 代 码 : 


def rssError (yArr,yHatArr): 
return ((yArr-yHatArr)**2) .sum() 








>>> abX,abY=regression.loadDataSsSet ('abalone .txt') 

>>> yHat0l=regression.lwlrTest (abX[0:99] ,abX[0:99] ,abY[0:99] ,0.1) 
>>> yHatl=regression.lwlrTest (abX[0:99] ,abX[0:99] ,abY[0:99] ,1) 
>>> yHat1l0=regression.lwlrTest (abX[0:99] ,abXxX[0:99] ,abY[0:99],10) 


为 了 分 析 预 测 误差 的 大 小 ， 可 以 用 哺 数 rssError () 计算 出 这 一 指标 : 
>>> regression.rssError (abY[0:99] ,yHat01.T) 

56.842594430533545 

>>> regression.rssError (abY[0:99] ,yHatl.T) 

429.89056187006685 


>>> regression.rssError (abY[0:99] ,yHat10.T) 
549.11817088257692 


可 以 看 到 ,使 用 较 小 的 核 将 得 到 较 低 的 误差 。 那 么 ,为 什么 不 在 所 有 数据 集 上 都 使 用 最 小 的 核 呢 ? 
这 是 因为 使 用 最 小 的 核 将 造成 过 拟 合 , 对 新 数据 不 一 定 能 达到 最 好 的 预测 效 末 。 下 面 就 来 看 看 它 
们 在 新 数据 上 的 表现 : 

>>> yHat0l=regression.lwlrTest (abX[100:199] ,abxX[0:99] ,abY[0:99] ,0.1) 

>>> regression.rssError (abY[100:199] ,yHat01.T) 

25619.926899338669 

>>> yHatl=regression.lwlrTest (abX[100:199] ,abxX[0:99] ,abY[0:99],1) 

>>> regression.rssError (abY[100:199] ,yHat1.T) 

573.5261441895808 

>>> yHat1l10=regression.lwlrTest (abX[100:199] ,abX[0:99] ,abY[0:99] ,10) 


>>> regression.rssError (abY[100:199] ,yHat10.T) 
517.57119053830979 


从 上 述 结 采 可 以 看 到 ,在 上 而 的 三 个 参数 中 ， 核 大 小 等 于 10 时 的 测试 误差 最 小 , 但 它 在 训练 
集 上 的 误差 却 是 最 大 的 。 接 下 来 再 来 和 简单 的 线性 回归 做 个 比较 : 

>>> WS = regression.standRegres (abX[0:99] ,abY[0:99]) 

>>> yHat=mat (abX[100:199] ) *ws 


>>> regression.rssError (abY[100:199],yHat.T.A) 
518.63631532450131 
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简单 线性 回归 达到 了 与 局 部 加 权 线 性 回归 类 似 的 效果 。 这 也 表明 一 点 ,必须 在 未 知 数据 上 比 
较 效 果 才 能 选取 到 最 佳 模 型 。 那 么 最 佳 的 核 大 小 是 10 吗 ? 或 许 是 , 但 如 果 想 得 到 更 好 的 效果 ， 应 
该 用 10 个 不 同 的 样本 集 做 10 次 测试 来 比较 结 

本 例 展 示 了 如 何 使 用 局 部 加 权 线 性 回归 来 构建 模型 ， 可 以 得 到 比 普通 线性 回归 更 好 的 效果 。 
局 部 加 权 线 性 回归 的 问题 在 于 ,每 次 必须 在 整个 数据 集 上 运行 。 也 就 是 说 为 了 做 出 预测 ， 必 须 保 
存 所 有 的 训练 数据 。 下 面 将 介绍 另 一 种 提高 预测 精度 的 方法 ， 并 分 析 它 的 优势 所 在 。 


8.4 ”缩减 系数 来 “理解 ”数据 


如 采 数 据 的 特征 比 样 本 点 还 多 应 该 怎么 办 ?是否 还 可 以 使 用 线性 回归 和 之 前 的 方法 来 做 预 
测 ? 答案 是 否定 的 ， 即 不 能 青 使 用 前 面 介绍 的 方法 。 这 是 因为 在 计算 (xx) 的 时 候 会 出 错 。 

如 果 特 征 比 样本 点 还 多 (n > m )， 也 就 是 说 输入 数据 的 矩阵 x 不 是 满 秩 矩阵 。 非 满 秩 矩阵 在 
求 逆 时 会 出 现 问 题 。 

为 了 解决 这 个 问题 ， 统 计 和 学 家 引入 了 岭 回 归 (ridge regression ) 的 概念 ， 这 就 是 本 节 将 介绍 
的 第 一 种 缩减 方法 。 接 着 是 lasso 法 ,该 方法 效 采 很 好 但 计算 复杂 。 本 最 后 介绍 了 第 二 种 缩减 方 
法 ， 称 为 前 癌 逐 步 回 肯 ， 可 以 得 到 与 ljasso 差 不 多 的 效果 ， 且 更 容 匈 实现 。 





























8.4.1 ”上 岭 回归 


简单 说 来 ， 岭 回归 就 是 在 矩阵 x*X 上 加 一 个 I 从 而 使 得 矩阵 非 奇 异 ， 进 而 能 对 XX + 和 I 求 逆 。 
其 中 矩阵 I 是 一 个 mxm 的 单位 矩阵 ， 对 角 线 上 元 系 全 为 1!1， 其 他 元 素 全 为 0。 而 和 是 一 个 用 户 定义 的 
数值 ， 后 面 会 做 介绍 。 在 这 种 情况 下 ， 回 归 系 数 的 计算 公式 将 变 成 : 
w=(X X+A) X'y 
岭 回 归 最 和 完 用 来 处 理 特征 数 多 于 样本 数 的 情况 , 现在 也 用 于 在 估计 中 加 入 偏差 ,从 而 得 到 更 
好 的 佑 计 。 这 里 通过 引入 和 来 限制 了 所 有 w 之 和 , 通过 引入 该 惩 昼 项， 能 够 减少 不 重要 的 参数 ,这 
个 技术 在 统计 学 中 也 叫做 缩减 〈shrinkage )。 


























信 回 归 中 的 岭 是 什么 ? 
岭 回 归 使 用 了 单位 算 阵 乘 以 常量 人 ， 我 们 观察 其 中 的 单位 矩阵 7， 可 以 看 到 值 1 贯 穿 整个 对 
角 线 , 其 余 元 素 全 是 0。 形象 地 , 在 0 构成 的 平面 上 有 一 条 1 组 成 的 “ 岭 ”, 这 就 是 岭 国 归 中 的 “ 岭 ” 
的 由 来 。 


缩减 方法 可 以 去 掉 不 重要 的 参数 ， 因 此 能 更 好 地 理解 数据 。 此 外 ， 与 简单 的 线性 回归 相 比 ， 
顷 减 法 能 取得 更 好 的 预测 效 来。 

与 前 几 半 里 训练 其 他 参数 所 用 的 方法 类 似 , 这 里 通过 预测 误差 最 小 化 得 到 人: 数据 获取 之 后 ， 
首 乞 抽 一 部 分 数据 用 于 测试 ， 剩 余 的 作为 训练 集 用 于 训练 参数 w。 训 练 完 毕 后 在 测试 集 上 测试 预 
测 性 能 。 通 过 选取 不 同 的 和 来 重复 上 述 测试 过 程 ， 最 终 得 到 一 个 使 预测 误差 最 小 的 和 。 
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下 面 看 看 实际 效果 ， 打 开 regression.py 文 件 并 添加 程序 清单 8-3 的 代码 。 
程序 清单 8-3” 怜 回归 


def ridgeRegres (xMat,yMat, lam=0 .2): 
xIx = XxMat.T*xMat 
denom = xTx + eye( Shape (xMat) [1])*lam 


if linalg.det (denom) == 0.0: 
print "This matrix is singular, cannot do inverse" 
return 


WwWS = denom.I * (xMat.T*yMat) 
return ws 


def ridgeTest (xArr,yArr): 
xMat = mat (xArr); yMat=mat (yArr) .T 
yMean = mean(yMat, 0) 
yMat = yMat - yMean 
类 一 \ 作 
xMeans = mean (xMat,o0) 数据 标准 化 


xVar = var (xMat, 0) 

xMat = (xMat - xMeans) /xVar 

mumIesStPtS = 30 

wMat = zeros( (numTestpts,shape (xMat) [1])) 

for i in range (numTestpPpts): 
ws = ridgeRegres (xMat,yMat, exp (i-10)) 
wMat [i,:]=ws.T 

return wMat 


程序 清单 8-3 中 的 代码 包含 了 两 个 图 数 : 子 数 riqgeRegres () 用 于 计算 回归 系数 ， 而 呆 数 
ridgeTest () 用 于 在 一 组 上 测试 结 

第 一 个 图 数 *idqgeRegtres () 实现 了 给 定 lambda 下 的 岭 回 归 求 解 。 如 果 没 指定 lambda， 则 默 
认为 0.2。 由 于 lambda 是 Python 保留 的 关键 字 ， 因 此 程序 中 使 用 了 1am 来 代替 。 该 国 数 首先 构建 矩 
阵 XX， 然 后 用 1lam 乘 以 单位 和 矩阵 (可 调用 NumPy 库 中 的 方法 eye () 来 生成 )。 在 普通 回归 方法 可 
能 会 产生 错误 时 , 岭 回 归 仍 可 以 正 背 工作 。 和 那么 是 不 是 就 不 再 需要 检查 行列 式 是 否 为 和 过， 对 吗 ? 
不 完全 对 ， 如 采 lambda 设 定 为 0 的 时 候 一 样 可 能 会 产生 错误 ,所 以 这 里 仍 需要 做 一 个 检查 。 最 后 ， 
如 果 和 矩阵 非 奇 异 就 计算 回归 系数 并 返回 。 

为 了 使 用 岭 回 昭和 缩减 技术 ， 首 先 需 要 对 特征 做 标准 化 处 理 。 回 忆 一 下 ， 第 2 章 已 经 用 过 标 
准 化 处 理 技术 ,使 每 维特 征 具 有 相同 的 重要 性 (不 考虑 特征 代表 什么 )。 程 序 清单 8-3 中 的 第 二 11 
困 数 ridqgeTest () 就 展示 了 数据 标准 化 的 过 程 。 具 体 的 做 法 是 所 有 特征 都 减 去 各 目的 均值 并 除 
以 方差 @。 

处 理 完成 后 就 可 以 在 30 个 不 同 的 lambda 下 调用 ridgeRegres () 峭 数 。 注 章 ， 这 里 的 lambda 
应 以 指数 级 变化 , 这 样 可 以 看 出 lambda 在 取 非 常 小 的 值 时 和 取 非 常 大 的 值 时 分 别 对 结果 造成 的 影 
啊 。 最 后 将 所 有 的 回归 系数 输出 到 一 个 矩阵 并 返回 。 

下 面 看 一 下 鲍鱼 数据 集 上 的 运行 结 

>>> reload (regression,) 


>>> abxX,abY=regression.loadDataSet ('abalone .txt') 
>>> ridgeWeights=regression.ridgeTest (abX, abY) 
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这 样 就 得 到 了 30 个 不 同 lambda 所 对 应 的 回归 系数 。 为 了 看 到 缩减 的 效果 ， 在 Python 提 示 符 下 


import matplotlib.pyplot as plt 
fig = plt.figure() 

ax = fig.add subplot (111) 
ax.plot (ridgeWeights) 


运行 之 后 应 该 看 到 一 个 类 似 图 8-6 的 结 来 图 ,该 图 绘 出 了 回归 系数 与 log (4) 的 关系 ,在 最 左边 ， 
即 4 最 小 时 ， 可 以 得 到 所 有 系数 的 原始 值 (与 线性 回归 一 致 为 而 在 右边 ， 系 数 全 部 缩减 成 0; 在 中 
间 部 分 的 茶 值 将 可 以 取得 最 好 的 预测 效果 。 为 了 定量 地 找到 最 佳 参数 值 ， 还 需要 进行 交叉 验证 。 
态 外 ， 要 判断 哪些 变量 对 绪 采 预测 最 具有 影响 力 ， 在 图 8-6 中 观察 它们 对 应 的 系数 大 小 就 可 以 。 








3 


2.0 


1 


1.0 


-10 -5 0 5 10 15 20 
log(lambda) 


岭 回归 的 回归 系数 变化 图 。* 非 常 小 时 ， 系 数 与 普通 回归 一 样 。 而 非常 大 时 ， 





所 有 回归 系数 绚 减 为 0。 可 以 在 中 间 茶 处 找到 使 得 预测 的 结果 最 好 的 和 值 


还 有 一 些 其 他 缩减 方法 ， 如 lasso、LAR、PCA 回 归 " 以 及 子 集 选择 等 。 与 岭 回归 一 样 ， 这 些 
方法 不 仅 可 以 提高 预测 精确 率 ， 而 且 可 以 解释 回归 系数 。 下 面 将 对 lasso 方 法 稍 作 介绍 。 


8.4.2 








不 难 证 明 ， 在 增加 如 下 约束 时 ， 普 通 的 最 小 二 乘法 回归 会 得 到 与 岭 回归 的 一 样 的 公式 : 


Sw 三 外 
k=1 


GD Trevor Hastie, Robert Tibshirani, and Jerome Friedman, The Elements of Statistical Learning: Data Mining, Inference, and 
Prediction, 2nd ed. (Springer, 2009). 
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上 式 限 定 了 所 有 回归 系数 的 平方 和 不 能 大 于 和 。 使 用 普通 的 最 小 二 乘法 回归 在 当 两 个 或 更 多 
的 特征 相关 时 ,可 能 会 得 出 一 个 很 大 的 正 系 数 和 一 个 很 大 的 负 系 数 。 正 是 因为 上 述 限 制 条 件 的 存 
在 ， 使 用 岭 回归 可 以 避免 这 个 问题 。 

与 岭 回归 类 似 ， 为 一 个 缩减 方法 lasso 也 对 回归 系数 做 了 限定 ， 对 应 的 约束 条 件 如 下 : 


yw ls 
唯一 的 不 同 点 在 于 ， 这 个 约束 条 件 使 用 绝对 值 取代 了 平方 和 。 虽 然 约束 形式 只 是 稍 作 变 化 ， 
结果 却 大 相 径 庭 : 在 ) 足 够 小 的 时 候 ， 一 些 系数 会 因此 被 迫 缩减 到 0， 这 个 特性 可 以 帮助 我 们 更 好 
地 理解 数据 。 这 两 个 约束 条 件 在 公式 上 看 起 来 相差 无 几 , 但 细微 的 变化 却 极 大 地 增加 了 计算 复杂 
度 (为 了 在 这 个 新 的 约束 条 件 下 解 出 回归 系数 ， 需 要 使 用 二 次 规划 算法 )。 下 面 将 介绍 一 个 更 为 
简单 的 方法 来 得 到 结果 ， 该 方法 叫做 前 向 逐步 回归 。 


8.4.3 ”前 向 逐步 回归 


前 向 逐步 回归 算法 可 以 得 到 与 jasso 差 不 多 的 效 末 , 但 更 加 信 单 。 它 属于 一 种 贪心 算法 ， 即 每 
一 步 都 尽 可 能 减少 误差 。 一 开始 ， 所 有 的 权重 都 设 为 1!1， 然 后 每 一 步 所 做 的 决策 是 对 某 个 权重 增 
加 或 减少 一 个 很 小 的 值 。 
该 算法 的 伪 代 码 如 下 所 示 : 
数据 标准 化 ， 使 其 分 布 满足 0 均值 和 单位 方差 
在 每 轮 迭 代 过 程 中 : 
设置 当前 最 小 误差 1owestError 为 正 无 穷 
对 每 个 特征 : 
增 大 或 缩小 : 
改变 一 个 系数 得 到 一 个 新 的 W 


























计算 新 W 下 的 误差 
如 果 误 差 Error 小 于 当前 最 小 误差 lowestError: 设置 Wbest 等 于 当前 的 W 
将 W 设 置 为 新 的 Whest 








下 面 看 看 实际 效 朱 ， 打 开 regression.py 文 件 并 加 入 下 列 程序 清单 中 的 代码 。 
程序 清单 8-4 ”前 癌 逐 步 线 性 回归 


def stageWise (xArr,yArr,eps=0.01,numIt=100): 
xMat = mat (xArr); yMat=mat (yArr) .T 
yMean = mean(yMat, 0) 
yMat = yMat - yMean 
xMat = regularize (xMat) 
m,n=shape (xMat) 
returnMat = zeros( (numIt,n)) 
WS = Zeros((n,1)); wsTest = ws.copy(); wsMax = ws .copy () 
for i in range (numIt): 
print ws.T 
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lowestError = inf.; 
for ] in range (n): 
for sign in [-1,1]: 
wsTest WS .Copy () 


wsTest[j] += eps*sign 
ylest = xMat*wsTest 
rssE = rssError (yMat .A,yTest .A) 
if rssE < lowestError: 
lowestError = rssE 
wsMax = wsTest 
WwWS = wsMax.copy () 
returnMat [i,:]=ws.T 
return returnMat 


程序 清单 8-4 中 的 函数 stageWise() 是 一 个 逐步 线性 回归 算法 的 实现 ， 它 与 lasso 做 法 相近 但 
计算 人 简 单 。 该 函数 的 输入 包括 : 输入 数据 xArr 和 预测 变量 yArr。 此 外 还 有 两 个 参数 : 一 个 是 eps， 
表示 每 次 友 代 需要 调整 的 步 长 ; 另 一 个 是 numIt ， 表 示 迭 代 次 数 。 

函数 首先 将 输入 数据 转换 并 存 人 和 抢 阵 中 , 然后 把 特征 按照 均值 为 0 方差 为 1 进行 标准 化 处 理 , 在 
这 之 后 创建 了 一 个 疝 量 ws 来 保存 w 的 值 ， 并 且 为 了 实现 贪心 算法 建立 了 ws 的 两 份 副本 。 接 下 来 的 优 
化 过 程 需要 迭代 numIt 次 ， 并 且 在 每 次 欠 代 时 都 打印 出 w 回 量 ， 用 于 分 析 算 法 执行 的 过 程 和 殖 采 。 

贪心 算法 在 所 有 特征 上 运行 两 次 for 循 环 ， 分 别 计算 增加 或 减少 该 特征 对 误差 的 影响 。 这 里 
使 用 的 是 平方 误差 ， 通 过 之 前 的 颗 数 xssError () 得 到 。 该 误差 初始 值 设 为 正 无 穷 ， 经 过 与 所 有 
的 误差 比较 后 取 最 小 的 误差 。 整 个 过 程 循环 欠 代 进行 。 

下 面 看 一 下 实际 效果 ， 在 regression.py 里 输入 程序 清单 8-4 的 代码 并 保存 ， 然 后 在 Python 提示 
符 下 输入 如 下 命令 : 

>>> reload (regression,) 

<module 'regression' from 'regression.pyc'> 

>>> XArr,yArr-regression.1loadDataSet ('abalone.txt') 


>>> regression.stageWise (xArr,yArr,0.01,200) 
[[ 0. 0. 0. 0. 0. 0. 0. 0.]] 





























[[ 0. 0 . 0 . 0.01 0. 0 . 0 . 0. ] 
[[ 0. 0 . 0 . 0.02 0. 0 . 0 . 0. ] 
[[ 0.04 0. 0.09 0.03 0.31 -0.64 0. 0.36]] 
[[ 0.05 0. 0.09 0.03 0.31 -0.64 0. 0.36]] 
[[ 0.04 0. 0.09 0.03 0.31 -0.64 0. 0.36]] 














上 述 结果 中 值得 注意 的 是 w1 和 w6 部 是 0， 这 表明 它们 不 对 目标 值 造成 任何 影响 ,也 就 是 说 这 
些 特征 很 可 能 是 不 需要 的 。 男 外 ， 在 参数 eps 设 置 为 0.01 的 情况 下 ， 一段 时 间 后 系数 就 已 经 饱和 
并 在 特定 值 之 间 来 回 震 沪 ， 这 是 因为 步 长 太 大 的 绿 故 。 这 里 会 看 到 ， 第 一 个 权重 在 0.04 和 0.05 之 
间 来 回 震 汤 。 

下 面试 春 用 更 小 的 步 长 和 更 多 的 步 数 : 


>>> regression.stageWise (xArr,yArr,0.001,5000) 

[[ 0. 0. 0. 0. 0. 0. 0. 0.]] 

[[ 0. 0 . 0 . 0.001 0. 0 . 0 . 0.; ]] 
[[ 0. 0 . 0 . 0.002 0. 0.; Us 0:; ]] 
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[[ 0.044 -0.011 0.12 0.022 2.023 -0.963 -0.105 0.187] 

[[ 0.043 -0.011 0.12 0.022 2.023 -0.963 -0.105 0.187] 

[[ 0.044 -0.011 0.12 0.022 2.023 -0.963 -0.105 0.187] 

接 下 来 把 这 些 结 末 与 最 小 二 乘法 进行 比较 ， 后 者 的 结 采 可 以 通过 如 下 代码 获得 : 

>>> XMat=mat (xArr) 

>>> yMat=mat (yArr) .T 

>>> XMat=regression.regularize (xMat) 

>>> YM = mean (yMat, 0) 

>>> yMat = yMat - yM 

>>> weights=regression.standRegres (xMat,yMat . 工 ) 

>>> weights.T 

matrix([[ 0.0430442 ，-0.02274163， 0.13214087, 0.02075182 ， 2.22403814， 
-0.99895312, -0.11725427, 0.16622915] |]) 


可 以 看 到 在 5000 次 迭代 以 后 ， 逐 步 线 性 回归 算法 与 常规 的 最 小 二 乘法 效果 类 似 。 使 用 0.005 
的 epsilon 值 并 经 过 1000 次 迭代 后 的 结果 参见 图 8-7。 
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图 8-7 鲍鱼 数据 集 上 执行 还 步 线 性 回归 法 得 到 的 系数 与 迭代 次 数 间 的 关系 。 逐 步 线 性 
回归 得 到 了 与 lasso 相 似 的 结果 ， 但 计算 起 来 更 加 简便 


逐步 线性 回归 算法 的 实际 好 处 并 不 在 于 能 绘 出 图 8-7 这 样 漂亮 的 图 , 主要 的 优点 在 于 它 可 以 帮助 
人 们 理解 现 有 的 模型 并 做 出 改进 。 当 构建 了 一 个 模型 后 ， 可 以 运行 该 算法 找 出 重要 的 特征 ， 这 样 就 
有 可 能 及 时 停止 对 那些 不 重要 特征 的 收集 。 最 后 , 如果 用 于 测试 , 该 算法 每 100 次 迭代 后 就 可 以 构建 
出 一 个 模型 ， 可 以 使 用 类 似 于 10 折 交叉 验证 的 方法 比较 这 些 模型 ， 最 终 选 择 使 误差 最 小 的 模型 。 

当 应 用 缩减 方法 ( 如 逐步 线性 回归 或 岭 回 归 ) 时 , 模型 也 就 增加 了 偏差 (bias )， 与 此 同时 却 
减 小 了 模型 的 方差 。 下 一 节 将 揭示 这 些 概念 之 间 的 关系 并 分 析 它 们 对 结果 的 影响 。 
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8.5 ”权衡 偶 委 与 方 委 


任何 时 候 , 一 旦 发 现 模 型 和 测量 值 之 间 存 在 差异 , 就 说 出 现 了 误差 。 当 考虑 模型 中 的 “噪声 ” 
或 者 说 误差 时 ,必须 考虑 其 来 源 。 你 可 能 会 对 复杂 的 过 程 进行 简化 ， 这 将 导致 在 模型 和 测量 值 之 
间 出 现 “ 噪 声 ” 或 误差 ， 帮 无 法 理解 数据 的 真实 生成 过 程 ， 也 会 导致 差异 的 发 生 。 另 外 , 测量 过 
程 本 身 也 可 能 产生 “噪声 ”或 者 问题 。 下 面 举 一 个 例子 ，8.1 节 和 8.2 节 处 理 过 一 个 从 文件 导入 的 
二 维 数据 。 实 话 来 讲 ， 这 个 数据 是 我 自己 造 出 来 的 ， 其 具体 的 生成 公式 如 下 : 

y= 3.0 + 1.7x + 0.lsin(30x)+0.06N(0,1), 
其 中 N (0,1) 是 一 个 均值 为 0、 方 差 为 1 的 正 态 分 布 。 在 8.1 方 中， 我 们 尝试 过 仪 用 一 条 直线 来 拟 合 
上 述 数据 。 不 难 想到 ， 直 线 所 能 得 到 的 最 佳 拟 合 应 该 是 3 .0+1.7x 这 一 部 分 。 这 样 的 话 ， 误 差 部 
分 就 是 0 .1sin(30x)+0.06N(0,1)。 在 8.2 节 和 8.3 节 , 我 们 使 用 了 局 部 加 权 线 性 回归 来 试图 捕捉 
数据 背后 的 结构 。 该 结构 拟 合 起 来 有 一 定 的 难度 ， 因此 我 们 测试 了 多 组 不 同 的 局 部 权重 来 找到 具 
有 最 小 测试 误差 的 解 。 

图 8-8 给 出 了 训练 误差 和 测试 误差 的 曲线 图 ， 上 面 的 曲线 就 是 测试 误差 ， 下面 的 曲线 是 训练 
误差 。 根 据 8.3 节 的 实验 我 们 知道 : 如果 降 低 核 的 大 小 ， 那 么 训练 误差 将 变 小 。 从 图 8-8 来 看 ， 从 
左 到 右 就 表示 了 核 逐 渐 减 小 的 过 程 。 












































低 方 差 高 偏差 高 方差 低 偏差 





低 入 高 
图 8-8 ”偏差 方差 折 中 与 测试 误差 及 训练 误差 的 关系 。 上 面 的 曲线 就 是 测试 误差 ， 在 中 
间 部 分 最 低 。 为 了 做 出 最 好 的 预测 ， 我 们 应 该 调整 模型 复杂 度 来 达到 测试 误差 
的 最 小 值 
一 般 认 为 ， 上 述 两 种 误差 由 三 个 部 分 组 成 : 俩 差 、 测 量 误差 和 随机 噪声 。 在 8.2 节 和 8.3 ， 
我 们 通过 引入 了 三 个 越 来 越 小 的 核 来 不 断 增 大 模型 的 方差 。 
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8.4 广 介绍 了 绚 减 法 ， 可 以 将 一 些 系 数 绚 减 成 很 小 的 值 或 下 接 绚 减 为 0， 这 是 一 个 增 大 模型 信 
差 的 例子 。 通过 把 一 些 特征 的 回归 系数 缩减 到 0， 同 时 也 就 减少 了 模型 的 复杂 度 。 例子 中 有 8 个 特 
征 ， 消 除 其 中 两 个 后 不 仅 使 模型 更 易 理解 ， 同 时 还 降低 了 预测 误差 。 图 8-8 的 左 侧 是 参数 缩减 过 
于 严 历 的 结 霖 ， 而 右 侧 是 无 乡 减 的 效 灯 。 

方差 是 可 以 度量 的 。 如 末 从 鲍鱼 数据 中 取 一 个 随机 样本 集 (例如 取 其 中 100 个 数据 ) 并 用 线 
性 模型 拟 合 ,将 会 得 到 一 组 回归 系数 。 同 理 , 再 取出 为 一 组 随机 样本 集 并 拟 合 ,将 会 得 到 为 一 组 
回归 系数 。 这 些 系数 间 的 差异 大 小 也 就 是 模型 方差 大 小 的 反映 "。 上 述 偏差 与 方差 折 中 的 概念 在 
机 可 学 习 十 分 流行 并 且 反 复出 现 。 

下 一 节 将 介绍 上 述 理论 的 应 用 : 首先 从 拍卖 站 点 抽取 一 些 数 据 , 再 使 用 一 些 回归 法 进行 实验 
来 为 数据 找到 最 佳 的 岭 回 归 模 型 。 这 样 就 可 以 通过 实际 效果 来 看 看 偶 差 和 方差 间 的 扩 中 效 朱 。 


8.6 示例: 预测 乐高 玩具 套 卖 的 价格 


你 对 乐高 (LEGO ) 品牌 的 玩具 了 解 吗 ?” 乐高 公司 生产 拼 闻 类 玩具 ， 由 很 多 大 小 不 同 的 塑料 
搬 块 组 成 。 这 些 塑料 搬 块 的 设计 非常 出 色 , 不 需要 任何 粘 合剂 就 可 以 随意 拼装 起 来 。 除 了 人 简单 玩 
具 之 外 ， 乐 高 玩具 在 一 些 成 人 中 也 很 流行 。 一 般 来 说 ， 这些 持 块 都 成 侠 出 售 ， 它 们 可 以 拼装 成 很 
多 不 同 的 东西 ， 如 船 、 城 堡 、 一 些 闭 名 建筑 ， 等 等 。 乐 高 公司 每 个 套装 包含 的 部 件数 目 从 10 件 到 
5000 件 不 等 。 

一 种 乐高 套装 基本 上 在 几 年 后 就 会 停产 ， 但 乐高 的 收藏 者 之 间 仍 会 在 停产 后 彼此 交易 。 
Dangler 喜 欢 为 乐高 套 半 估价， 下面 将 用 本 章 的 回归 技术 帮助 他 建立 一 个 预测 模型 。 





















































示例 : 用 回归 法 预测 乐高 套 六 的 价格 
(1) 收集 数据 : 用 Google Shopping 的 API 收 集 数 据 。 
(2) 准备 数据 : 从 返回 的 JSON 数 据 中 抽取 价格 。 
(3) 分 析 数 据 : 可 视 化 并 观察 数据 。 
(4) 训练 算法 : 构建 不 同 的 模型 ， 采 用 逐步 线性 回归 和 直接 的 线性 回归 模型 。 
(5) 测试 算法 : 使 用 交叉 验证 来 测试 不 同 的 模型 ， 分 析 哪 个 效果 最 好 。 
(6) 使 用 算法 : 这 次 练习 的 目标 就 是 生成 数据 模型 。 


在 这 个 例子 中 , 我 们 将 从 不 同 的 数据 集 上 获取 价格 ,然后 对 这 些 数 据 建 立 回归 模型 。 需要 做 
的 第 一 件 事 就 是 如 何 获 取 数 据 。 
8.6.1 收集 数据 : 使 用 Google 购物 的 API 


Google 已 经 为 我 们 提供 了 一 套 购物 的 API 来 抓 取 价格 。 在 使 用 API 之 前 , 需要 注册 -个 Google 
账号 ， 然 后 访问 Google API 的 控制 台 来 确保 购物 API 可 用 。 完 成 之 后 就 可 以 发 送 HTTP 请 求 ，API 








中 方差 指 的 是 模型 之 间 的 差异 ， 而 偏差 指 的 是 模型 预测 值 和 数据 之 间 的 差异 ， 请 读者 注意 区 分 。 一 一 译 者 注 
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将 以 JSON 格 式 返 回 所 需 的 产品 信息 。Python 提 供 了 JSON 解 析 模 块 , 我 们 可 以 从 返回 的 JSON 格 式 
里 整理 出 所 需 数据 。 详 细 的 API 介 绍 可 以 参见 : http://code.google.com/apis/shopping/search/v1/ 
getting started.html。 

打开 regression.py 文 件 并 加 入 如 下 代码 。 


程序 清单 8-5 ”购物 信息 的 获取 函数 


from time import sleep 

import json 

import urllib2 

def searchForSet (retX, retY, setNum, yr, numpPce, origPrc): 


sleep (10) 

myAPIstr = 'get from code.google.com'! 

SearchURL = 'https://www.googleapis.com/shopping/search/vi/public/ 
products?\ 


© 


key=%stcountry=US&q=lego+%d&alt=json' $$ (myAPIstr, setNum) 

pg = urllib2 .urlopen (searchURL) 

retDict = json.loads (pg.read()) 

for i in range (len(retDict['items'])): 

try: 
currIitem = retDict['items'] [i] 
if currIitem['product'] ['condition'] == 'new': 
newFlag = 1 

else: newFlag = 0 


listOofInv = currlitem['product'] ['inventories'l] 

for item in listOfInyv: 过 滤 掉 不 完整 的 套装 
sellingpPrice = item['price'] I ib 
if sellingPrice > origPrc * 0.5: 


print "gd\tS$d\tS$d\tsf\tgSf" $$\ 
(yr,numpce,newFlag,origPprc, sellingPprice) 
retX.append( [yr, numpPpce, newFlag, origPrcl]) 
retY.append (sellingprice) 
except: print 'problem with item %d' % 1 


def setDataCollect (retxXx, retY): 
searchForSet (retX, retY, 8288, 2006, 800, 49.99) 
searchForSet (retX, retY, 10030, 2002, 3096, 269.99) 
searchForSet (retX, retY, 10179, 2007, 5195, 499.99) 
searchForSet (retX, retY, 10181, 2007, 3428, 199.99) 
searchForSet (retX, retY, 10189, 2008, 5922, 299.99) 
SearchForSet (retxXx, retY, 10196, 2009, 3263, 249.99) 


0 表单 中 的 第 一 个 函数 是 searchForSet ()， 它 调用 Google 购 物 API 并 保证 数据 抽取 
的 正确 性 。 里 需要 导入 新 的 模块 time .sleep() 、json 和 ur1llib2。 但 是 一 开始 要 休眠 10 
秒 钟 ， a 接 下 来 , 我 们 拼接 查询 的 URL 字 符 串 , 添加 API 
的 key 和 竺 查询 的 套装 信息 ， 打 开 和 解析 操作 通过 json.1oaqs () 方 法 实现 。 完 成 后 我 们 将 得 到 
一 部 字典 ， 下 面 需要 做 的 是 从 中 找 出 价格 和 其 他 信息 。 

部 分 返回 结果 的 是 一 个 产品 的 数组 , 我 们 将 在 这 些 产 品 上 循环 迭代 , 判断 该 产品 是 否 是 新 产 
癌 并 抽取 它 的 价格 。 我 们 知道 ， 乐 高 套 疙 由 很 多 小 插件 组 成 ,有 的 二 手套 装 很 可 能 会 缺失 其 中 一 
两 件 。 也 就 是 说 ， 卖 家 只 出 售 套装 的 徊 干部 件 〈 不 完整 )。 因 为 这 种 不 完整 的 套装 也 会 通过 检索 
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结 末 返回 , 所 以 我 们 需要 将 这 些 信息 过 滤 掉 ( 可 以 统计 描述 中 的 关键 记 或 者 是 用 贝 叶 斯 方法 来 判 
其 )。 我 在 这 里 仅 使 用 了 一 个 简单 的 局 发 式 方法 : 如 果 一 个 套装 的 价格 比 原始 价格 低 一 半 以 上 ， 
则 认为 该 套装 不 完整 。 程 序 清单 8-5 在 代码 @ 处 过 滤 掉 了 这 些 套装 ， 解 析 成 功 后 的 套装 将 在 屏幕 
上 显示 出 来 并 保存 在 list 对 象 retxX 和 retY 中 。 

程序 清单 8-5 的 最 后 一 个 函数 是 setDataCollect () ， 它 负责 多 次 调用 searchForSset () 。 
子 数 searchForSet () 的 其 他 参数 是 从 www.brickset.com 收 集 来 的 ， 它 们 也 一 并 输出 到 文件 中 。 

下 面 看 一 下 执行 结 有 末 ， 添 加 程序 清单 8-$ 中 的 代码 之 后 保存 regression.py， 在 Python 提示 符 下 
输入 如 下 命令 : 

>>> lgX = []; lgY = [ 

>>> regression.setDataCollect (lgxX, 1l9gY) 











2006 800 1 49.990000 549.990000 
2006 800 1 49.990000 759.050000 
2006 800 1 49.990000 316.990000 
2002 3096 1 269.990000 499.990000 
2002 3096 1 269.990000 289.990000 
2009 3263 0 249.990000 524.990000 
2009 3263 1 249.990000 672.000000 
2009 3263 1 249.990000 580.000000 





检查 一 下 lgXx 和 1gY 以 确认 一 下 它们 非 空 。 下 市 我 们 将 使 用 这 些 数据 来 构建 回归 方程 并 预测 
乐高 玩具 套 交 的 售 价 。 











8.6.2 训练 算法 : 建立 模型 


上 上 一 他 从 网 上 收集 到 了 一 些 真 实 的 数据 ,下 面 将 为 这 些 数 据 构建 一 个 模型 。 构 建 出 的 模型 可 
以 对 售 价 做 出 预测 ， 并 帮助 我 们 理解 现 有 数据 。 看 一 下 Python 是 如 何 完 成 这 些 工 作 的 。 

首先 需要 添加 对 应 常数 项 的 特征 X0 (X0=1 )， 为 此 创建 一 个 全 1 的 矩阵: 

>>> Shape (19X) 


(58， 4) 
>>> lgX1l=mat (ones ((58,5))) 


接 下 来 ， 将 原 数 据 和 矩阵 1gX 复 制 到 新 数据 和 矩阵 1gX1 的 第 1 到 第 5 列 : 
>>> 1g9X1L[:，1:5]=mat(1g9X) 


确认 一 下 数据 复制 的 正确 性 : 

>>> 19X[0j 

[2006.0，800.0，0.0，49.990000000000002j 

>>> l9gX1[0] 

matrix([[ 1.00000000e+00, 2.00600000e+03,， 8.00000000e+02 ， 
0.00000000e+00， 4.99900000e+01j]]) 


很 显然 ,后 者 除了 在 第 0 列 加 入 1 之 外 其 他 数据 者 一样。 最 后 在 这 个 新 数据 集 上 进行 回归 处 理 : 


>>> WSs=regression.standRegres (19X1, 19gY) 





>>> WS 
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matrix([[ 5.5319970le+04],， 
[ -2.75928219e+01] ， 
[ -2.68392234e-02】] ， 
[ -1.12208481le+01] 
] 


[ 2.57604055e+00]]) 
仿 查 一 下 结案 ， 看 看 模型 是 否 有 效 : 
>>> lgX1[0] *ws 


[0 
matrix([[ 76.07418853]]) 
>>> lgXl1[-1]*ws 

[ 

[4 





matrix([[ 431.17797672]] ) 
>>> lgX1[43] *ws 
matrix([[ 516.20733105] ] ) 








可 以 看 到 模型 有 效 。 下 面 看 看 具体 的 模型 。 该 模型 认为 套装 的 售 价 应 该 采用 如 下 公式 计算 : 
$55319.97-27.59*Year-0.00268*NumPpieces-11.22*NewOrUsed+2.57*original price 
这 个 模型 的 预测 效果 非常 好 ,但 檬 型 本 号 并 不 能 令 人 满 童 。 它 对 于 数据 拟 合 得 很 好 , 但 看 上 
去 没有 什么 道理 。 从 公式 看 ， 套 法 里 和 零 部 件 越 多 售 价 反 而 会 越 低 。 男 外 ， 该 公式 对 新 登 疙 也 有 一 
定 的 惩 列 。 
下 面 使 用 缩减 法 中 一 种 ， 即 岭 回 归 再 进行 一 次 实验 。 前 面 讨论 过 如 何 对 系数 进行 缩减 , 但 这 
次 将 会 看 到 如 何 用 缩减 法 确定 最 佳 回归 系数 。 打 开 regression.py 并 输入 下 面 的 代码 。 


程序 清单 8-6 ”交叉 难 证 测试 岭 回 归 
def crossValidation (xArr,yArr,numVal=10): 
m = len (yArr) 




















indexList = range (m) 

errorMat = zeros( (numVal,30)) 

for i in range (numVal): 
trainx=[]; trainY= [] 思 创建 训练 集 和 测试 集 容器 
testX = []; testY = [] 


random.shuffle (indexList) 
for ] in range (m) : 
if Jj < m*0.9: 
trainx.append (xArr [indexList[j]]) 、、 ER 
trainY.append (yArr [indexList []]]) 数据 分 为 训练 集 和 测试 集 
else: 
testX.append (xArr [indexList []]]) 
testY.append (yArr [indexList []]]) 


wMat = ridgeTest (trainx,trainy) 
for k in range (30): 
matTestX = mat (testX) ) matTrainX=mat (trainx) 用 训练 时 的 参数 将 
meanTrain = mean (matTrainx,0) 人 测试 数据 标准 化 
varTrain = var (matTrainx,o0) 
matTestX = (matTestX-meanTrain) /varTrain 
yEst = matTestX * mat (wMat [k,:]).T + mean (trainYy) 
errorMat [i,k]=rssError (yEst.T.A,array (testY)) 
meanErrors = mean (errorMat,o0) 
minMean = float (min (meanErrors),) 
bestweights = wMat [nonzero (meanErrors==minMean)|]| 


XMat = mat (xArr); yMat=mat (yArr) .T 
meanX = mean (xMat,0); varX = var (xMat, 0) 
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unReg = bestWeights/varx 
print "the best model from Ridge Regression is:\n'",unReg 数据 还 原 
print "with constant term: "AN 

-1l*sum(multiply (meanX,unReg)) + mean (yMat) 


上 述 程序 清单 中 的 函数 crossValidation () 有 三 个 参数 , 前 两 个 参数 1gX 和 1gY 存 有 数据 集中 
的 X 和 Y 值 的 list 对 象 ， 默 认 1gx 和 19gY 具 有 相同 的 长 度 。 第 三 个 参数 numval1 是 算法 中 交叉 验证 的 次 
数 ， 如 果 该 值 没有 指定 ， 就 取 默 认 值 10。 函 数 crossvaligdation() 首先 计 算数 据点 的 个 数 m。 创 
建 好 了 训练 集 和 测试 集 容 絮 人 @， 之 后 创建 了 一 个 list 并 使 用 Numpy 提 供 的 random. shuffle() 函数 
对 其 中 的 元 素 进行 混 洗 (shuffle )， 因 此 可 以 实现 训练 集 或 测试 集 数据 点 的 随机 选取 。 人 处 将 数据 
集 的 90% 分 割 成 训练 集 ， 其 余 10% 为 测试 集 ， 并 将 二 者 分 别 放 和 对 应 容 希 中 。 

一 旦 对 数据 点 进行 混 洗 之 后 ， 就 建立 一 个 新 的 和 矩阵 wMat 来 保存 岭 回归 中 的 所 有 回归 系数 。 
我 们 还 记得 在 8.4.1 节 中 ， 哨 数 ridgeTest () 使 用 30 个 不 同 的 4 值 创建 了 30 组 不 同 的 回归 系数 。 接 
下 来 我 们 也 在 上 述 测试 集 上 用 30 组 回归 系数 来 循环 测试 回归 效果 ,上 岭 回归 需要 使 用 标准 化 后 的 数 
据 ， 因 此 测试 数据 也 需要 用 与 测试 集 相同 的 参数 来 执行 标准 化 。 在 全 处 用 函数 rssError () 计算 
误差 ,并 将 结果 保存 在 errorMat 中 。 

在 所 有 交叉 验证 完成 后 ，errorMat 保 存 了 ridgeTest() 里 每 个 4 对 应 的 多 个 误差 值 。 为 了 
将 得 出 的 回归 系数 与 standRegres () 作 对 比 , 需要 计算 这 些 误差 估计 值 的 均值 "。 有 一 点 值得 注 
意 : 岭 回 归 使 用 了 数据 标准 化 ， 而 standRegres () 则 没有 ， 因 此 为 了 将 上 述 比 较 可 视 化 还 需 将 
数据 还 原 。 在 处 对 数据 做 了 还 原 并 将 最 终结 果 展 示 。 

来 看 一 下 整体 的 运行 效果 ， 在 regression.py 中 输入 程序 清单 8-6 中 的 代码 并 保存 ， 然 后 执行 如 
下 命令 : 

>>> regression.crossValidation (lgX,1gY,10) 

The best model from Ridge Regression is: 


[[ -2.96472902e+01 -1.34476433e-03 -3.38454756e+01 2.44420117e+00]] 
with constant term: S59389.2069537 


为 了 便于 与 向 规 的 最 小 二 乘法 进行 比较 ， 下 面 给 出 当前 的 价格 公 趟 : 

$59389.21-29.64*Year-0.00134*NumPpieces-33.85*NewOrUsed+2.44*original price. 

可 以 看 到 ,该 结 采 与 最 小 二 乘法 没有 太 大 差异 。 我 们 本 期 望 找到 一 个 更 多 于 理解 的 模型 ， 显 
然 没 有 达到 预期 效 末 。 为 了 达到 这 一 点 ,我 们 来 看 一 下 在 缩减 过 程 中 回归 系数 是 如 何 变化 的 ， 输 






































入 下 面 的 命令 : 
>>> regression.ridgeTest (1gX,19Y) 
array([[ -1.45288906e+02, -8.39360442e+03, -3.28682450e+00， 
4.42362406e+04] ， 
[ -1.46649725e+02, -1.89952152e+03, -2.80638599e+00， 
4.27891633e+04]， 
[ -4.91045279e-06, 5.01149871e-08， 2.40728171e-05， 


8.14042912e-07]]) 








QD 此 处 为 10 折 ， 所 以 每 个 4 应 该 对 应 10 个 误差 。 应 选取 使 误差 的 均值 最 低 的 回归 系数 。 一 一 译 者 注 
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这 些 系数 是 经 过 不 同 程度 的 缩减 得 到 的 。 首 先 看 第 1 行 ， 第 4 项 比 第 2 项 的 系数 大 5 倍 ， 比 第 1 
项 大 57 倍 。 这 样 看 来 ， 如 果 只 能 选择 一 个 特征 来 做 预测 的 话 ， 我 们 应 该 选择 第 4 个 特征 ， 也 就 是 
原始 价格 。 如 果 可 以 选择 2 个 特征 的 话 ， 应 该 选择 第 4 个 和 第 2 个 特征 。 

这 种 分 析 方 法 使 得 我 们 可 以 挖掘 大 量 数据 的 内 在 规律 。 在 仅 有 4 个 特征 时 ， 该 方法 的 效果 也 
许 并 不 明显 ; 但 如 果 有 100 个 以 上 的 特征 ， 该 方法 就 会 变 得 十 分 有 效 : 它 可 以 指出 哪些 特征 是 关 
键 的 ， 而 哪些 特征 是 不 重要 的 。 


8.7 本章 小 结 


与 分 类 一 样 , 回归 也 是 预测 目标 值 的 过 程 。 回 归 与 分 类 的 不 同 点 在 于 , 前 者 预测 连续 型 变量 ， 
而 后 者 预测 离散 型 变量 。 回 归 是 统计 学 中 最 有 力 的 工具 之 一 。 在 回归 方程 里 , 求 得 特征 对 应 的 最 
佳 回 归 系 数 的 方法 是 最 小 化 误差 的 平方 和 。 给 定 输入 矩阵 x， 如 有 果 X x 的 逆 存 在 并 可 以 求 得 的 话 ， 
回归 法 都 可 以 直接 使 用 。 数据 集 上 计算 出 的 回归 方程 并 不 一 定 意味 着 它 是 最 佳 的 , 可 以 使 用 预测 
值 yEat 和 原始 值 y 的 相关 性 来 度量 回归 方程 的 好 坏 。 

当 数 据 的 样本 数 比 特征 数 还 少时 候 ， 和 窍 阵 XxX 的 逆 不 能 直接 计算 。 即 便当 样本 数 比 特征 数 多 
时 ，xXX 的 逆 仍 有 可 能 无 法 直接 计算 ， 这 是 因为 特征 有 可 能 高 度 相 关 。 这 时 可 以 考虑 使 用 岭 回 归 ， 
为 当 XX 的 逆 不 能 计算 时 ， 它 仍 保证 能 求 得 回归 参数 。 

岭 回 归 是 缩减 法 的 一 种 ,相当 于 对 回归 系数 的 大 小 施加 了 限制 。 另 一 种 很 好 的 缩减 法 是 lasso。 
Lasso 难 以 求解 ， 但 可 以 使 用 计算 简便 的 逐步 线性 回归 方法 来 求 得 近似 结果 。 

缩减 法 还 可 以 看 做 是 对 一 个 模型 增加 偏差 的 同时 减少 方差 。 偏 差 方 差 折 中 是 一 个 重要 的 概 
念 ， 可 以 帮助 我 们 理解 现 有 模型 并 做 出 改进 ， 从 而 得 到 更 好 的 模型 。 

本 草 介 绍 的 方法 很 有 用 。 但 有 些 时 候 数 据 间 的 关系 可 能 会 更 加 复杂 , 如 预测 值 与 特征 之 间 是 
非 线 性 关系 , 这 种 情况 下 使 用 线性 的 模型 就 难以 拟 合 。 下 一 章 将 介绍 几 种 使 用 树 结构 来 预测 数据 
的 方法 。 





















































树 回 


本 章 内 容 

口 CART 算 法 

口 回归 与 模型 树 

口 树 剪 校 算法 

口 Python 中 GUI 的 使 用 


第 8 草 介绍 的 线性 回归 包含 了 一 些 强大 的 方法 ， 但 这 些 方法 创建 的 模型 需要 拟 合 所 有 的 样本 
点 (局 部 加 权 线 性 回归 除外 )。 当 数据 拥有 众多 特征 并 且 特 征 之 间 关 系 十 分 复杂 时 ， 构 建 全 局 模 
型 的 想法 就 显得 太 难 了 ,也 上 略 显 笨拙 。 而 且 ， 实际 生活 中 很 多 问题 都 是 非 线 性 的 , 不 可 能 使 用 全 
局 线性 模型 来 拟 合 任何 数据 。 

一 种 可 行 的 方法 是 将 数据 集 切 分 成 很 多 份 易 建 模 的 数据 ， 然 后 利用 第 8 董 的 线性 回归 技术 来 
建 模 。 如 果 首 次 切 分 后 仍然 难以 拟 合 线性 模型 就 继续 切 分 。 在 这 种 切 分 方式 下 , 树 结构 和 回归 法 
就 相当 有 用 。 

本 和 草 首 先 介 绍 一 个 新 的 叫做 CART ( Classification And Regression Trees, 分 类 回归 树 ) 的 树 构 
建 算 法 。 该 算法 既 可 以 用 于 分 类 还 可 以 用 于 回归 ， 因 此 非常 值得 学 习 。 然 后 利用 Python 来 构建 并 
显示 CART 树 。 代 码 会 保持 足够 的 灵活 性 以 便 能 用 于 多 个 问题 当中 。 接 着 ， 利 用 CART 算 法 构建 
回归 树 并 介绍 其 中 的 树 前 校 技术 (该 技术 的 主要 目的 是 防止 树 的 过 拟 合 )。 之 后 引入 了 一 个 更 高 
级 的 模型 树 算法 。 与 回归 树 的 做 法 (在 每 个 叶 市 点 上 使 用 各 目的 均值 做 预测 ) 不 同 ， 该 算法 需要 
在 每 个 叶 节 点 上 都 构建 出 一 个 线性 模型 。 在 这 些 树 的 构建 算法 中 有 一 些 需要 调整 的 参数 , 所 以 还 
会 介绍 如 何 使 用 Python 中 的 Tkinter 模 块 建立 图 形 交 互 界 面 。 最 后 ， 在 该 界面 的 辅助 下 分 析 参 数 对 
回归 效果 的 影响。 


9.1 复杂 数据 的 局 部 性 建 模 
第 3 章 使 用 决策 树 来 进行 分 类 。 决 策 树 不 断 将 数据 切 分 成 小 数据 集 ， 直 到 所 有 目标 变量 完全 


相同 , 或 者 数据 不 能 再 切 分 为 止 。 决策 树 是 一 种 贪心 算法 ， 它 要 在 给 定时 间 内 做 出 最 佳 选 择 , 但 
并 不 关心 能 否 达 到 全 局 最 优 。 
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树 回 归 
优点 : 可 以 对 复杂 和 非 线性 的 数据 建 模 。 
缺点 : 结果 不 易 理 解 。 
适用 数据 类 型 : 数值 型 和 标 称 型 数据 。 








第 3 草 使 用 的 树 构建 算法 是 ID3。ID3 的 做 法 是 每 次 选取 当前 最 佳 的 特征 来 分 割 数据 ， 并 按照 
该 特征 的 所 有 可 能 取 值 来 切 分 。 也 就 是 说 ， 如 果 一 个 特征 有 4 种 取 值 ， 那 么 数据 将 被 切 成 4 份 。 一 
日 按 某 特征 切 分 后 , 该 特征 在 之 后 的 算法 执行 过 程 中 将 不 会 再 起 作用 , 所 以 有 观点 认为 这 种 切 分 
方式 过 于 迅速 。 另 外 一 种 方法 是 二 元 切 分 法 ， 即 每 次 把 数据 集 切 成 两 份 。 如 果 数 据 的 某 特 征 值 等 
于 切 分 所 要 求 的 值 ， 那 么 这 些 数据 就 进入 树 的 左 子 树 ， 反 之 则 进入 树 的 右 子 树 。 

除了 切 分 过 于 迅速 外 ，ID3 算 法 还 存在 另 一 个 问题 ， 它 不 能 直接 处 理 连 续 型 特征 。 只 有 事先 
将 连续 型 特征 转换 成 离散 型 ， 才 能 在 ID3 算 法 中 使 用 。 但 这 种 转换 过 程 会 破坏 连续 型 变量 的 内 在 
性 质 。 而 使 用 二 元 切 分 法 则 易于 对 树 构 建 过 程 进行 调整 以 处 理 连续 型 特征 。 具 体 的 处 理 方 法 是 : 
如 果 特 征 值 大 于 给 定 值 就 走 左 子 树 , 否则 就 走 右 子 树 。 另 外 , 二 元 切 分 法 也 节省 了 树 的 构建 时 间 ， 
但 这 点 意义 也 不 是 特别 大 ， 因 为 这 些 树 构 建 一 般 是 离线 完成 ， 时 间 并 非 需要 重点 关注 的 因素 。 

CARIT 是 十 分 著名 且 广 泛 记 载 的 树 构 建 算法 ， 它 使 用 二 元 切 分 来 处 理 连 续 型 变量 。 对 CART 
稍 作 修改 就 可 以 处 理 回归 问题 。 第 3 章 中 使 用 香农 炉 来 度量 集合 的 无 组 织 程度 。 如 果 选 用 其 他 方 
法 来 代 蔡 香农 烂 ， 就 可 以 使 用 树 构建 算法 来 完成 回归 。 

下 面 将 实 观 CART 算 法 和 回归 树 。 回 归 树 与 分 类 树 的 思路 类 似 ， 但 叶 节 点 的 数据 类 型 不 是 离 
散 型 ， 而 是 连续 型 。 









































树 回 归 的 一 般 方法 
(1) 收集 数据 : 采用 任意 方法 收集 数据 。 
(2) 准备 数据 : 需要 数值 型 的 数据 ， 标 称 型 数据 应 该 映射 成 二 值 型 数据 。 
(3) 分 析 数 据 : 绘 出 数据 的 二 维 可 视 化 显示 结果 ， 以 字典 方式 生成 树 。 
(4) 训练 算法 : 大 部 分 时 间 都 花费 在 叶 节 点 树 模型 的 构建 上 。 
(5) 测试 算法 : 使 用 测试 数据 上 的 R" 值 来 分 析 模 型 的 效果 。 
(6) 使 用 算法 : 使 用 训练 出 的 树 做 预测 ， 预 测 结果 还 可 以 用 来 做 很 多 事情 








有 了 思路 之 后 就 可 以 开始 写 代 码 了 。 下 一 市 将 介绍 在 Python 中 利用 CART 算 法 构建 树 的 最 佳 方法 。 


9.2 ”连续 和 离散 型 特征 的 树 的 构建 


在 树 的 构建 过 程 中 ， 需 要 解决 多 种 类 型 数据 的 存储 问题 。 与 第 3 章 类 似 ， 这 里 将 使 用 一 部 字 
典 来 存储 树 的 数据 结构 ， 该 字典 将 包含 以 下 4 个 元 系 。 
口 竺 切 分 的 特征 。 
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口 待 切 分 的 特征 值 。 
口 右 子 树 。 当 不 再 需要 切 分 的 时 候 ， 也 可 以 是 单个 值 。 
口 左 了 于 树 。 与 右 子 树 类 似 。 
这 与 第 3 章 的 树 结 构 有 一 点 不 同 。 第 3 章 用 一 部 字典 来 存储 每 个 切 分 , 但 该 字典 可 以 包含 两 个 
或 两 个 以 上 的 值 。 而 CART 算 法 只 做 二 元 切 分 ， 所 以 这 里 可 以 固定 树 的 数据 结构 。 树 包含 左 键 和 
右键 ,可 以 存储 吃 一 棵 子 树 或 者 单个 信 。 字 典 还 包含 特征 和 特征 值 这 两 个 键 ， 它们 给 出 切 分 算法 
所 有 的 特征 和 特征 值 。 当 然 ， 恋 者 可 以 用 面向 对 象 的 编程 模式 来 建立 这 个 数据 结构 。 例 如 ， 可 以 
用 下 面 的 Python 代码 来 建立 树 节 点 : 
class treeNode () : 
def init (self, feat, val, right, left): 
featureToSplitOn = feat 
valueOofsplit = val 


rightBranch = right 
leftBranch = left 


当 使 用 C++ 这 样 不 太 灵 活 的 编程 语言 时 ,你 可 能 要 用 面向 对 象 编程 模式 来 实现 树 结构 .Python 
具有 足够 的 灵活 性 , 可 以 直接 使 用 字典 来 存储 树 结 构 而 无 须 另 外 上 自 定 义 一 个 类 ,从 而 有 效 地 减少 
代码 量 。Python 不 是 一 种 强 类 型 编程 声言 ， 因 此 接 下 来 会 看 到 , 树 的 每 个 分 校 还 可 以 再 包含 其 他 
树 、 数 值 型 数据 甚至 是 癌 量 。 

本 章 将 构建 两 种 树 : 第 一 种 是 9.4 节 的 回归 树 (regression tree )， 其 每 个 叶 节 点 包含 单个 值 ; 
第 二 种 是 9.5 市 的 模型 树 (modeltree )， 其 每 个 叶 市 点 包含 一 个 线性 方程 。 创 建 这 两 种 树 时 ， 我 们 
将 尽量 使 得 代码 之 间 可 以 重用 。 下 面 先 给 出 两 种 树 构建 算法 中 的 一 些 共 用 代码 。 

疯 数 createTree () 的 伪 代 码 大 致 如 下 : 

找到 最 佳 的 待 切 分 特征 : 

如 果 该 让 点 不 能 再 分 ， 将 该 节点 存 为 叶 忆 点 
执行 二 元 切 分 

在 右 子 树 调用 createTree() 方 法 
在 左 子 树 调用 createTree() 方 法 


打开 文本 编辑 货 ， 创 建文 件 regTrees .py 并 添加 如 下 代码 。 
程序 清单 9-1 CART 算 法 的 实现 代码 


from numpy import * 


























def loadDataSsSet (fileName): 

dataMat = [|] 

fr = open (fileName) 

for line in fr.readlines(): 
curLine = line.strip() .split('\t') .9 将 每 行 映射 成 浮 点 数 
fltLine = map (float,curLine) 
dataMat .append (fltLine) 

return dataMat 
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def pinSsplitDataSet (dataSet, feature, value): 
mat0 = dataSet [nonzero(dataSet[:,feature] > value) [0 
matl1 = dataSsSet [nonzero(dataSetl[:,feature] <= Value) [ 
return matO0O,matl 


],:]10] 
0],:][0] 


def createTree (dataSet, leafType=regLeaf, errType=regErr, ops=(1,4)): 
feat, val = chooseBestSplit (dataSet, leafType, errType, ops) 


if feat == None: return val 

retTree = {} ©。 满足 停止 条 件 时 返回 时 市 点 值 
zetTree['spbpInd']j = feat 

retTree['spVal'] = Val 

lSet, rSet = binSsplitDataSsSet (dataSet, feat, val) 

retTree['left'] = createTree (lSet, leafType, errType, ops) 

retTree['right'] = createTree(rSet, leafType, errType, ops) 


return retTree 

上 述 程序 清单 包含 3 个 函数 : 第 一 个 函数 是 1oadpataset () , 该 函数 与 其 他 章节 中 同名 函数 
功能 类 似 。 在 前 面 的 革 市 中 , 目标 变量 会 单独 存放 其 目 己 的 列表 中 , 但 这 里 的 数据 会 存放 在 一 起 。 
该 函数 读 取 一 个 以 tab 键 为 分 隔 符 的 文件 ， 然 后 将 每 行 的 内 容 保 存 成 一 组 浮 点 数 @。 

第 二 个 孙 数 是 pinsplitDataSet () ， 该当 数 有 3 个 参数 : 数据 集合 、 竺 切 分 的 特征 和 该 特 
征 的 某 个 值 。 在 给 定 特 征 和 特征 值 的 情况 下 , 该 也 数 通 过 数组 过 小 方式 将 上 述 数 据 集 合 切 分 得 到 
两 个 子 集 并 返回 。 

最 后 一 个 函数 是 树 构建 函数 createTree()， 它 有 4 个 参数 : 数据 集 和 其 他 3 个 可 选 参数 。 这 
些 可 选 参数 决定 了 树 的 类 型 . leafType 给 出 建立 叶 节 点 的 函数 ; errType 代 表 误 差 计算 因数 ; 
而 ops 是 一 个 包含 树 构 建 所 需 其 他 参数 的 元 组 。 

国 数 createTree () 是 一 个 递归 国 数 。 该 困 数 首先 尝试 将 数据 集 分 成 两 个 部 分 ， 切 分 由 因数 
chooseBestSplit() 完 成 (这 里 未 给 出 该 函数 的 实现 )。 如 末 满 足 停止 条 件 ，chooseBest- 
Split () 将 返回 None 和 某 类 模型 的 值 @。 如 果 构 建 的 是 回归 树 ， 该 模型 是 一 个 常数 。 如 果 是 模 
型 树 ， 其 模型 是 一 个 线性 方程 。 后 面 会 看 到 停止 条 件 的 作用 方式 。 如 末 不 满足 俘 止 条 件 ，choose 
BestSplit() 将 创建 一 个 新 的 Python 字典 并 将 数据 集 分 成 两 份 ,在 这 两 份 数据 集 上 将 分 别 继续 递 
归 调 用 createTree () 困 数 。 

程序 清单 9-1 的 代码 很 容易 理解 , 但 其 中 的 方法 chooseBestSsplit () 现 在 暂时 尚未 实现 , 所 
以 函数 还 不 能 看 到 createTree () 的 实际 效果 。 但 是 下 面 可 以 先 测 试 其 他 两 个 因数 的 将 采 。 将 程 
序 清 单 9-1 的 代码 保存 在 文件 regTrees.py 中 并 在 Python 提示 符 下 输入 如 下 命令 : 


>>> import regTrees 
>>> testMat=mat (eye (4)) 
>>> testMat 
matrix([[ 1., 

| ys 
| Os 
[ 0., 0., 


这 样 就 创建 了 一 个 简单 的 矩阵 ， 现 在 按 指定 列 的 某 个 值 来 切 分 该 矩阵 。 
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>>> mat0,matl=regTrees.binSplitDataSet (testMat,1,0.5) 


>>> mato0 
matrix([[ 0., 1., 0., 0.]1]) 
>>> matl 
matrix([[ 1., 0., 0., 0.]， 
[ 0., 0., 1., 0.]， 
[ 0., 0., 0., 1.]]) 


很 有 趣 吧 。 下 面 给 出 回归 树 的 chooseBestSsplit() 限 数 ， 还 会 看 到 更 有 趣 的 结 采 。 下 
一 节 将 针对 回归 树 构建 ， 在 chooseBestSsplLit1() 国 数 里 加 入 具体 代码 ， 之 后 就 可 以 使 用 程 
序 清单 9-1 的 CART 算 法 来 构建 回归 树 。 


9.3 将 CART 算 法 用 于 回归 


有 要 对 数据 的 复杂 关系 建 模 , 我 们 已 经 决定 借用 树 结构 来 帮助 切 分 数据 , 那么 如 何 实现 数据 的 
切 分 呢 ?” 怎 么 才能 知道 是 否 已 经 充分 切 分 呢 ?” 这 些 问 题 的 答案 取决 于 叶 市 点 的 建 模 方式 。 回归 树 
假设 叶 市 点 是 第 数 值 ， 这 种 冬 略 认为 数据 中 的 复杂 关系 可 以 用 树 结 构 来 概括 。 

为 成 功 构建 以 分 段 涡 数 为 叶 节 点 的 树 , 需要 度量 出 数据 的 一 致 性 。 第 3 草 使 用 树 进 行 分 类 ， 
会 在 给 定 市 点 时 计算 数据 的 混乱 度 。 那 么 如 何 计算 连续 型 数值 的 混乱 度 呢 ?” 事 实 上 ， 在 数据 
集 上 计算 混乱 度 是 非常 简单 的 。 首 先 计算 所 有 数据 的 均值 ， 然 后 计算 每 条 数据 的 值 到 均值 的 
差 值 。 为 了 对 正 负 差 值 同 等 看 待 ， 一 般 使 用 绝对 值 或 平方 值 来 代替 上 述 差 值 。 上 述 做 法 有 点 
类 似 于 前 面 介绍 过 的 统计 等 中 常用 的 方差 计算 。 唯一 的 不 同 就 是 , 方差 是 平方 误差 的 均值 ( 均 
方差 )， 而 这 里 需要 的 是 平方 误差 的 总 值 ( 总 方差 )。 忆 方差 可 以 通过 均 方 差 磁 以 数据 集中 样 
本 点 的 个 数 来 得 到 。 

有 了 上 述 误 差 计算 准 则 和 上 一 市 中 的 树 构 建 算 法 ， 下 面 就 可 以 开始 构建 数据 集 上 的 回归 
树 了 。 















































9.3.1 构建 树 


构建 回归 树 ， 需 要 补充 一 些 新 的 代码 ， 使 程序 清单 9-1 中 的 消 数 createTree() 得 以 运转 。 
首先 要 做 的 就 是 实现 chooseBestsplit () 国 数 。 给 定 某 个 误差 计算 方法 ， 该 函数 会 找到 数据 集 
上 最 佳 的 二 元 切 分 方式 。 男 外 ,该 限 数 还 要 确定 什么 时 候 停 止 切 分 , 一 旦 停止 切 分 会 生成 一 个 叶 
节点 。 因 此 ， 阴 数 chooseBestsplit() 只 需 完成 两 件 事 : 用 最 佳 方式 切 分 数据 集 和 生成 相应 的 
叶 节 点 。 

从 程序 清单 9-1 可 以 看 出 , 除了 数据 集 以 外 ,了 消 数 chooseBestSplit() 还 有 leafType、 
ertzType 和 ops 这 三 个 参数 。 其 中 leafType 是 对 创建 叶 布 点 的 图 数 的 引用 ，erzrType 是 对 
前 面 介 绍 的 总 方差 计算 函数 的 引用 ， 而 ops 是 一 个 用 户 定 义 的 参数 构成 的 元 组 ， 用 以 完成 树 
的 构建 。 
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下 面 代码 中 ， 捕 数 chooseBestSplit () 最 复杂 ， 该 图 数 的 目标 是 找到 数据 集 切 分 的 最 佳 
位 置 。 它 过 历 所 有 的 特征 及 其 可 能 的 取 值 来 找到 使 误差 最 小 化 的 切 分 国 值 。 该 晒 数 的 伪 代 码 大 
致 如 下 : 





对 每 个 特征 : 
对 每 个 特征 值 : 
将 数据 集 切 分 成 两 份 
计算 切 分 的 误差 


如 果 当 前 误差 小 于 当前 最 小 误差 ,那么 将 当前 切 分 设 定 为 最 佳 切 分 并 更 新 最 小 误差 
返回 和 最 佳 切 分 的 特征 和 靖 值 


下 面 给 出 上 述 三 个 函数 的 具体 实现 代码 。 打 开 regTrees.py 文 件 并 加 入 程序 清单 9-2 中 的 代码 。 
程序 清单 9-2 ”回归 树 的 切 分 困 数 


def regLeaf (QataSet) : 
return mean (dataSet[:,-1]) 





def regErr (dataSset): 
return var (dataSet[:,-1]) * shape (dataSet) [0] 


def chooseBestSplit (dataSet, leafType=regLeaf, errType=regErr, ops=(1,4)): 
tolSs = ops[0]; tolN = ops[1] 
if len(set (dataSet[:,-1] .T.tolist()[0])) == 1: 局 如 果 所 有 值 相 等 则 退出 
return None, leafType (dataSset) 
m,n = shape (dataset) 
S = errType (dataSset) 
bestS = inf; bestIindex = 0; bestValue = 0 
for featIindex in range (n-1): 
for splitVal in set (dataSet[:,featIindex]): 
mat0, matl = binSsplitDataSet (dataSet, featIindex, splitVal) 
If (Shape (mat0) [0] < tolN) or (Shape (mat1) [0] < tolN): continue 
newS = errType (mat0) + errType (mat1) 
if newS < bests: 
bestIndex = featIindex 
bestValue = splitVal 
bests = newS 如 果 误 差 减少 不 大 则 退出 
if (S - bestSs) < tolS8s: 
return None, leafType (dataSset) 
mat0, matl1l = binSsplitDataSet (dataSet, bestIindex, bestValue) 如 果 切 分 出 的 数据 
if (shape (mat0) [0] < tolN) or (shape (mat1) [0] < tolN): 人 集 很 小 则 退出 
return None, leafType (dataset) 
return bestIindex,bestValue 


上 述 程 序 清单 中 的 第 一 个 消 数 是 regLeaf ()， 它 负 员 生成 叶 节 点 。 当 chooseBestSplit() 
函数 确定 不 再 对 数据 进行 切 分 时 ， 将 调用 该 regLeaf () 函数 来 得 到 叶 节 点 的 模型 。 在 回归 树 中 ， 
该 模型 其 实 就 是 目标 变量 的 均值 。 

第 二 个 函数 是 误差 估计 函数 regErr ()。 该 函数 在 给 定数 据 上 计算 目标 变量 的 平方 误差 。 当 
然 也 可 以 和 完 计 算出 均值 , 然后 计算 每 个 差 值 再 平方 ,但 这 里 和 耳 接 调用 均 方差 多数 var () 更 加 方便 。 
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因为 这 里 需要 返回 的 是 总 方差 ， 所 以 要 用 均 方差 乘 以 数据 集中 样本 的 个 数 。 

第 三 个 图 数 是 chooseBestSsp1it()， 它 是 回归 树 构建 的 核心 图 数 。 该 晒 数 的 目的 是 找到 数 
据 的 最 佳 二 元 切 分 方式 。 如 果 找 不 到 一 个 “好 ”的 二 元 切 分 ， 该 吨 数 返回 None 并 同时 调用 
createTree() 方 法 来 产生 叶 市 点 ， 叶 市 点 的 值 也 将 返回 None。 接 下 来 将 会 看 到 ， 在 阴 数 
chooseBestSsplit() 中 有 三 种 情况 不 会 切 分 ， 而 是 直接 创建 叶 节 点 。 如 果 找 到 了 一 个 “好 ”的 切 
分 方式 ， 则 返回 特征 编号 和 切 分 特征 值 。 

国 数 chooseBestSsplit () 一 开始 为 ops 设 定 了 tols 和 tolN 这 两 个 值 ,它们 是 用 户 指定 的 参 
数 ， 用 于 控制 函数 的 停止 时 机 。 其 中 变量 tols 是 容许 的 误差 下 降 值 ，tolN 是 切 分 的 最 少 样本 数 。 
接 下 来 通过 对 当前 所 有 目标 变量 建立 一 个 集合 ， 咀 数 chooseBestsp1lit () 会 统计 不 同 剩 余 特征 
值 的 数目 。 如 果 该 数目 为 1， 那 么 就 不 需要 再 切 分 而 直接 返回 @@。 然 后 函数 计算 了 当前 数据 集 的 
大 小 和 误差 。 该 误差 s 将 用 于 与 新 切 分 误差 进行 对 比 ， 来 检查 新 切 分 能 否 降低 误差 。 下 面 很 快 就 
会 看 到 这 一 点 。 

这 样 , 用 于 找到 最 佳 切 分 的 几 个 变量 就 被 建立 和 初始 化 了 。 下面 就 将 在 所 有 可 能 的 特征 及 其 
可 能 取 值 上 遍历 ,找到 最 住 的 切 分 方式 。 最 住 切 分 也 就 是 使 得 切 分 后 能 达到 最 低 误差 的 切 分 。 如 
果 切 分 数据 集 后 效果 提升 不 够 大 , 那么 就 不 应 进行 切 分 操作 而 直接 创建 叶 节 点 人 @, 男 外 还 需要 检 
查 两 个 切 分 后 的 子 集 大 小 ， 如 果 某 个 子 集 的 大 小 小 于 用 户 定义 的 参数 tolN， 那 么 也 不 应 切 分 。 
最 后 ， 如 果 这 些 提前 终止 条 件 都 不 满足 ， 那 么 就 返回 切 分 特征 和 特征 值 合 。 











9.3.2 运行 代码 


下 面 在 一 些 数据 上 看 看 上 市 代码 的 实际 效果 ， 以 图 9-1 的 数据 为 例 ， 我 们 的 目标 是 从 该 数据 
生成 一 棵 回归 树 。 
将 程序 清单 9-2 中 的 代码 添加 到 regTrees.py 文 件 并 保存 ， 然 后 在 Python 提 示 符 下 输入 : 


>>>reload (regTrees) 
<module 'regTrees' from '‘'regTrees.pyc'> 





>>> from numpy import * 


图 9-1 的 数据 存储 在 文件 ex00.txt 中 。 


>>> myDat=regTrees.loadDataSet ('ex00.txt') 
>>> myMat = mat (myDat) 

>>> regTrees.createTree (myMat) 

{'spInd': 0, 'spVal': matrix([[ 0.48813]]), 
'right': -0.044650285714285733， 

'left': 1.018096767241379 } 
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图 9-1 基于 CART 算 法 构建 回归 树 的 简单 数据 集 
再 看 一 个 多 次 切 分 的 例子 ,参见 图 9-2 的 数据 集 。 
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图 9-2 ”用 于 测试 回归 树 的 分 段 党 数 数据 集 
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图 9-2 的 数据 保存 在 一 个 以 tab 键 分 隔 的 文本 文档 ex0.txt 中 数据 。 为 从 上 述 数 据 中 构建 一 棵 回 
归 树 ， 在 Python 提 示 符 下 敲 入 如 下 命令 : 


>>> myDatl=regTrees.loadDataset ('ex0 .txt') 
>>> myMat1l=mat (myDat1) 
>>> regTrees.createTree (myMat1) 


{'spInd': 1, 'spVal': matrix([[ 0.39435]]), 'right': {'spInd': 1, 'spVal': 
matrix([[ 0.197834]]), 'right': -0.023838155555555553, 'left': 
1.0289583666666664}, 'left': {'spInd': 1, 'spVal': matrix([[ 0.582002]]), 
'right': 1.9800350714285717, 'left': {'spInd': 1, 'spVal': matrix([I[ 
0.797583]]), 'right': 2.9836209534883724, 'left': 3.9871632000000004}}} 


可 以 检查 一 下 该 树 的 结构 以 确保 树 中 包含 5 个 叶 节 点 。 读 者 也 可 以 在 更 复杂 的 数据 集 上 构建 
回归 树 并 观察 实验 结果 。 

到 现在 为 止 , 已 经 完成 回归 树 的 构建 ,但 是 需要 某 种 措施 来 检查 构建 过 程 否 得 当 。 下 面 将 介 
绍 树 剪 枝 〈tree pruning ) 技术 ， 它 通过 对 决策 树 剪 枝 来 达到 更 好 的 预测 效果 。 


9.4 ” 树 剪 枝 


一 棵 树 如 果 节 点 过 多 ， 表 明 该 模型 可 能 对 数据 进行 了 “过 拟 合 ”。 和 那么 ， 如 何 判 断 是 否 发 生 了 
过 拟 合 ? 前 面 章 ee 了 测 试 集 上 某 种 交叉 验证 技术 来 发 现 过 拟 合 , 决策 树 亦 是 如 此 。 本 节 将 
对 此 进行 讨论 ， 并 分 析 如 何 避 免 过 拟 合 。 

通过 降低 决策 树 的 复杂 度 来 避免 过 拟 合 的 过 程 称 为 剪 枝 (pruning )。 其 实 本 章 前 面 已 经 进行 

过 剪 枝 处 理 。 在 函数 chooseBestsplit () 中 的 提前 终止 条 件 ， 实 际 上 是 在 进行 We 的 预 前 
枝 a 操作 。 另 一 种 形式 的 剪 枝 需 要 使 用 测试 集 和 训练 集 ， 称 作 后 剪 校 ( postpruning )。 
本 布 将 分 析 后 剪 术 的 有 效 性 ， 但 首先 来 看 一 下 预 剪 校 的 不 足 之 处 。 














9.4.1” 预 剪 枝 


上 方 两 个 简单 实验 的 结果 还 是 令 人 满意 的 , 但 背后 存在 一 些 问题 。 树 构建 算法 其 实 对 输入 的 
参数 tolsB 和 tolN 非 常 敏感 ， 如 果 使 用 其 他 值 将 不 太 容 易 达 到 这 么 好 的 效果 。 为 了 说 明 这 一 点 
在 Python 提 示 符 下 输 入 如 下 命 命令 : 

>>> regTrees .createTree (myMat,ops=(0,1) ) 

与 上 节 中 只 包含 两 个 节点 的 树 相 比 , 这 里 构建 的 树 过 于 用 肿 , 它 甚 至 为 数据 集中 每 个 样本 都 
分 配 了 一 个 叶 节 点 。 

图 9-3 中 的 散 点 图 , 看 上 去 与 图 9-1 非 党 相似 。 但 如 果 仔 细 地 观察 y 轴 就 会 发 现 , 前 者 的 数量 级 
是 后 者 的 100 倍 。 这 将 不 是 问题 , 对 吧 ? 现在 用 该 数据 来 构建 一 棵 新 的 树 (数据 存放 在 ex2.txt 中 )， 
在 Python 提 示 符 下 输入 以 下 命令 : 


>>> myDat2=regTrees.loadDataset ('ex2 .txt') 
>>> myMat2=mat (myDat2) 
>>> regTrees.createTree (myMat2) 
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{'spInd': 0, 'spVal': matrix([[ 0.499171]]), 'right': {'spInd': 0， 
'spVal': matrix([[ 0.457563]]), 'right': -3.6244789069767438， 
left!: 7.9699461249999999 } ， wl 


0, 'spVal': matrix([[ 0.958512]]), 'right': 112.42895575000001, 
'left': 105.248 
2350000001}}}} 


200 
150 


100 


一 5 人 





—0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2 
X 


图 9-3 ”将 图 9-1 的 数据 的 y 轴 放大 100 售 后 的 新 数据 集 


不 知 你 注意 到 没有 ， 从 图 9-1 数 据 集 构建 出 来 的 树 只 有 两 个 叶 市 点 ， 而 这 里 构建 的 新 树 则 有 
很 多 叶 市 点 。 产 生 这 个 现象 的 原因 在 于 ,停止 条 件 tols 对 误差 的 数量 级 十 分 敏感 。 如 果 在 选项 
中 花费 时 间 并 对 上 述 误差 容 妨 度 取 平 方 值 ， 或 许 也 能 得 到 仅 有 两 个 叶 市 点 组 成 的 树 : 


>>> regTrees.createTree (myMat2,ops=(10000,4)) 
{'spInd': 0, 'spVal': matrix([[ 0.499171]]), 'right': -2.6377193297872341， 
'lJeft': 101.35815937735855} 


然而 ,通过 不 断 修改 集 止 条 件 来 得 到 合理 结果 并 不 是 很 好 的 办 法 。 事 实 上 ， 我 们 党 第 甚至 不 确 
定 到 底 需 要 寻找 什么 样 的 结果 。 这 正 是 机 占 学 习 所 关注 的 内 容 ， 计 算 机 应 该 可 以 给 出 总 体 的 概貌 。 

下 届 将 讨论 后 剪 术 ， 即 利用 测试 集 来 对 树 进 行 艾 校 。 由 于 不 需要 用 户 指 定 参 数 ， 后 驴 校 是 一 
个 更 理想 化 的 六 校 方法 。 


9.4.2 ”后 剪 枝 
使 用 后 剪 枝 方法 需要 将 数据 集 分 成 测试 集 和 训练 集 。 首先 指定 人 参数, 使 得 构建 出 的 树 足 够 大 、 
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足 人 够 复杂 ， 便 于 剪 校 。 接 下 来 从 上 而 下 找到 叶 节 点 ,用 测试 集 来 判断 将 这 些 叶 市 点 合并 是 否 能 降 
低 测 试 误 差 。 如 果 是 的 话 就 合并 。 
疯 数 prune () 的 伪 代 人 码 如 下 : 
基于 已 有 的 树 切 分 测试 数据 : 
如 果 存 在 任 一 子 集 是 一 棵 树 ， 则 在 该 子 集 递 归 剪 枝 过 程 
计算 将 当前 两 个 叶 节 点 合并 后 的 误差 
计算 不 合并 的 误差 
如 果 合 并 会 降低 误差 的 话 ， 就 将 叶 节 点 合并 
为 了 解 实际 效果 ， 打 开 regTrees.py 并 输入 程序 清单 9-3 的 代码 。 


程序 清单 9-3 ”回归 树 豌 村 阴 数 


def isTree (ob]j): 
return (type (obj). name =='dict') 


def getMean (tree): 
if ijsTree(tree['right']): tree['right'] = getMean (tree['right']) 
if isTree(tree['left']): tree['left'] = getMean (tree['left']) 
return (tree['left']+tree['right'])/2.0 


def prune (tree, testData): 没有 测试 数据 则 对 
if shape (testData) [0] == 0: return getMean (tree) 树 进行 塌陷 处 理 


if (ijsTree(tree['right']) or isTree(treel['left'])): 
lSet, rSet = binSsplitDataSset (testData, tree[l'spInd'], 
tree['spVal']) 
if ijsTree(tree['left']): tree['left'] = prune (tree['left'], lSet) 
if ijsTree(tree['right']): tree['right'] = prune(tree['right'], rSet) 
If not isTree(tree['left']) and not isTree (tree['right']): 
lSet, rSet = binSsplitDataSset (testData, tree[l'spInd'], 
tree['spVal']) 


errorNoMerge = sum(power (lSet[:,-1] - treel['left'] ,2)) +\ 
sum(power (rsSet[:,-1|] - tree['right'],2)) 

treeMean = (tree['left']+tree[l'right'])/2.0 

errorMerge = sum(power (testDatal[l:,-1] - treeMean,2)) 


if errorMerge < errorNoMerge: 
print "merging" 
return treeMean 
else: return tree 
else: return tree 


程序 清单 9-3 中 包含 三 个 图 数 : isTree() 、getMean() 和 prune()。 其 中 isTree() 用 
于 测试 输入 变量 是 否 是 一 棵 树 ， 返 回 布尔 类 型 的 结果 。 换 名 话说 ,该 限 数 用 于 判断 当前 处 理 
的 节点 是 否 是 时下 点 。 

为数 getMean () 是 一 个 递归 水 数 , 它 从 上 人 往 下 遍历 树 耻 到 叶 市 点 为 止 。 如 采 找 到 两 个 叶 市 点 
则 计算 它们 的 平均 值 。 该 函数 对 树 进行 塌 陶 人 处理 ( 即 返 回 树 平均 值 )， 在 prune () 艺 数 中 调用 该 
负数 时 应 明确 这 一 点 。 

程序 清单 9-3 的 主 函数 是 prune() ， 它 有 两 个 参数 : 待 六 枝 的 树 与 前 校 所 需 的 测试 数据 
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testData。prune() 国 数 首先 需要 确认 测试 集 是 否 为 空 伟 。 一 旦 非 空 ， 则 反复 递归 调用 函数 
prune () 对 测试 数据 进行 切 分 。 因 为 树 是 由 其 他 数据 集 ( 训练 集 ) 生成 的 ， 所 以 测试 集 上 会 有 一 
些 样本 与 原 数 据 集 样 本 的 取 值 范围 不 同 。 一 旦 出 现 这 种 情况 应 当 怎 么 办 ? 数据 发 生 过 拟 合 应 该 进 
行 剪 校 吗 ? 或 者 模型 正确 不 需要 任何 剪 校 ? 这 里 假设 发 后 了 过 拟 合 ， 从 而 对 树 进 行 剪 术 。 

接 下 来 要 检查 某 个 分 文 到 底 是 子 树 还 是 节点 。 如 果 是 子 树 , 就 调用 也 数 prune () 来 对 该 子 树 
进行 剪 校 。 在 对 左右 两 个 分 文 完成 剪 校 之 后 ， 还 需要 检查 它们 是 否 仍然 还 是 子 树 。 如 果 两 个 分 文 
已 经 不 再 是 子 树 ， 那 么 就 可 以 进行 合并 。 具 体 做 法 是 对 合并 前 后 的 误差 进行 比较 。 如 果 合 并 后 的 
误差 比 不 合并 的 误差 小 就 进行 合并 操作 ， 反 之 则 不 合并 直接 返回 。 

接 下 来 看 看 实际 效果 , 将 程序 清单 9-3 的 代码 添加 到 regTrees.py 文 件 并 保存 ， 在 Python 提示 符 
下 输入 下 面 的 命令 : 


>>> reload (regTrees) 
<module 'regTrees' from 'regTrees.pyc'> 


为 了 创建 所 有 可 能 中 最 大 的 树 ， 输 入 如 下 命令 : 
>>> myTree=regTrees.createTree (myMat2, ops=(0,1)) 
输入 以 下 命令 导入 测试 数据 : 


>>> myDatTest=regTrees.loadDataSet ('ex2test .txt') 
>>> myMat2Test=mat (myDatTest) 


输入 以 下 命令 ， 执 行 剪 枝 过 程 : 

>>> regTrees.prune (myTree, myMat2Test) 
merging 

merging 

merging 























merging 
{'spInd': 0, 'spVal': matrix([[ 0.499171]]), 'right': {'spInd': 0, 'spVal': 


01, 'left': {'spInd': 0, 'spVal': matrix([[ 0.960398]]), 'right': 123.559747, 
'Jeft': 112.386764}}}, 'left': 92.523991499999994}}}} 


可 以 看 到 ,大 量 的 市 扣 已 经 被 肪 校 挥 了 , 但 没有 像 预期 的 那样 艾 校 成 两 部 分 ， 这 说 明 后 竟 校 
可 能 不 如 预 剪 棱 有 效 。 一 般 地 ， 为 了 寻求 最 佳 模型 可 以 同时 使 用 两 种 剪 校 技术 。 

下 节 将 重用 部 分 已 有 的 树 构 建 代 码 来 创建 一 种 新 的 树 。 该 树 仍 采用 二 元 切 分 , 但 叶 市 点 不 再 
是 简单 的 数值 ， 取 而 代 之 的 是 一 些 线 性 模型 。 


9.5 ”模型 树 


用 树 来 对 数据 建 模 , 除了 把 叶 市 点 人 简单 地 设 定 为 常数 值 之 外 , 还 有 一 种 方法 是 把 叶 市 点 设 定 
为 分 段 线 性 函数 ， 这 里 所 请 的 分 段 线性 (piecewise linear ) 是 指 模型 由 多 个 线性 片段 组 成 。 如 果 
读者 仍 不 清楚 ， 下 面 很 快 就 会 给 出 样 例 来 帮助 理解 。 考 虑 图 9-4 中 的 数据 ， 如 果 使 用 两 条 直线 拟 
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合 是 否 比 使 用 一 组 常数 来 建 模 好 呢 ” 答案 显而易见 。 可 以 设计 两 条 分 别 从 0.0 ~ 0.3、 从 0.3 ~ 1.0 
的 二 线 ， 于 是 就 可 以 得 到 两 个 线性 模型 。 因 为 数据 集 里 的 一 部 分 数据 〈0.0 ~ 0.3 ) 以 菏 个 线性 模 
型 建 模 ， 而 另 一 部 分 数据 ( 0.3 ~ 1.0 ) 则 以 另 一 个 线性 模型 建 模 ， 因 此 我 们 说 采用 了 所 谓 的 分 段 
线性 模型 。 

决策 树 相 比 于 其 他 机 可 学 习 算 法 的 优势 之 一 在 于 结果 更 易 理解 。 很 显然 , 两 条 直线 比 很 多 市 





点 组 成 一 棵 大 树 更 容易 解释 。 模 型 树 的 可 解释 性 是 它 优 于 回归 树 的 特点 之 一 。 夯 外 , 模型 树 也 有 具 
有 更 高 的 预测 准确 度 。 
14 


12 
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图 9-4 ”用 来 测试 模型 树 构 建 函 数 的 分 段 线性 数据 


前 面 的 代码 稍 加 修改 就 可 以 在 叶 市 点 生成 线性 模型 而 不 是 当 数 值 ,下 面 将 利用 树 生成 算法 对 
数据 进行 切 分 ， 且 每 份 切 分 数据 部 能 很 容易 被 线性 模型 所 表示 。 该 算法 的 关键 在 于 误差 的 计算 。 

前 面 已 经 给 出 了 树 构 建 的 代码 , 但 是 这 里 仍然 需要 给 出 每 次 切 分 时 用 于 误差 计算 的 代码 。 不 
知道 谈 者 是 否 还 记得 之 前 createTree () 函数 里 有 两 个 参数 从 未 改变 过 。 回 归 树 把 这 两 个 参数 固 
定 ， 而 此 处 略 做 修改 ， 从 而 将 前 面 的 代码 重用 于 模型 树 。 

下 一 个 问题 就 是 , 为 了 找到 最 佳 切 分 , 应 该 怎样 计算 误差 呢 ? 前 面 用 于 回归 树 的 误差 计算 方 
法 这 里 不 能 再 用 。 稍 加 变化 ， 对 于 给 定 的 数据 集 ， 应 该 匈 用 线性 的 模型 来 对 它 进 行 拟 合 ， 然 后 计 
算 真 实 的 目标 值 导 异 型 预测 值 间 的 差 值 。 最 后 将 这 些 差 值 的 平方 求 和 就 得 到 了 所 需 的 误差。 为 了 
解 实 际 效 果 ， 打 开 regTrees.py 文 件 并 加 入 如 下 代码 。 
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程序 清单 9-4 ”模型 树 的 叶 市 点 生成 函数 
def linearSolve (dataset): 
m,n = shape (dataset 


X = mat(ones ((m,n))); Y = mat (ones ((m,1))) 思 将 X 与 Y 中 的 数据 格式 化 
X[:,1:n]l = dataSet[:,0:n-1]; Y = dataSet[:,-1] 

XTIX = X.T*X 

if linalg.det (xTx) == 0.0: 


raise NameError('This matrix is singular, cannot do inverse,\n\ 
try increasing the second value of ops') 

WS = XIX.I * (X.T * Y) 

return wSs,X,Y 


def modelLeaf (QataSet ) : 
wSs,X,Y = linearSolve (datasSet) 
return ws 


def modelErr (dataSet): 
wSs,X,Y = linearSolve (datasSset) 
yHat = X * WS 
return sum(power(Y - yHat, 2)) 


上 述 程序 清单 中 的 第 一 个 函数 是 linearsolve () ， 它 会 被 其 他 两 个 函数 调用 。 其 主要 功能 
是 将 数据 集 格式 化 成 目标 变量 Y 和 自 变 量 x 人 @, 与 第 8 章 一 样 ，X 和 Y 用 于 执行 简单 的 线性 回归 。 另 
外 在 这 个 函数 中 也 应 当 注 意 ， 如 果 和 窍 阵 的 道 不 存在 也 会 造成 程序 异常 。 

第 二 个 函数 modelLeaf () 与 程序 清单 9-2 里 的 函数 regLeaf () 类 似 ， 当 数据 不 再 需要 切 
分 的 时 候 它 负责 生成 叶 市 点 的 模型 。 该 函数 在 数据 集 上 调用 1inearsolve() 并 返回 回归 系 
数 ws 。 

最 后 一 个 哨 数 是 modelErr () ， 可 以 在 给 定 的 数据 集 上 计算 误差 。 它 与 程序 清单 9-2 的 男 数 
regErr () 类 似 ， 会 被 cnooseBestsplit() 调 用 来 找到 最 佳 的 切 分 。 该 函数 在 数据 集 上 调用 
1inearSolve()， 之 后 返回 yHat 和 Y 之 间 的 平方 误差 。 

至 此 ， 使 用 程序 清单 9-1 和 程序 清单 9-2 中 的 函数 构建 模型 树 的 全 部 代码 已 经 完成 。 为 了 解 实 
味 效 果 ， 保 存 regTrees.py 文 件 并 在 Python 提 示 符 下 输入 : 


>>> reload (regTrees) 
<module 'regTrees' from 'regTrees.pyc'> 


图 9-4 的 数据 已 保存 在 一 个 用 tab 键 为 分 隔 符 的 文本 文件 exp2.txt 里 。 

>>> myMat2 = mat (regTrees.loadDataSet ('exp2.txt')) 

为 了 调用 也 数 createTree() 和 模型 树 的 函数 ， 需 将 模型 树 也 数 作为 createTree () 的 参 
数 ， 输 入 下 面 的 命令 : 


>>> regTrees.createTree (myMat2, regTrees.modelLeaf, regTrees.modelErr, 
































(L710)) 
{'spInd': 0, 'spVal': matrix([[ 0.285477]]), 'right': matrix([I[ 
3.46877936],， [ 1.18521743]]), 'left': matrix([[ 1.69855694e-03], 


[ 1.19647739e+01]])} 


可 以 看 到 ， 该 代码 以 0.285 477 为 界 创建 了 两 个 模型 ， 而 图 9-4 的 数据 实际 在 0.3 处 分 段 。 
createTtee() 生 成 的 这 两 个 线性 模型 分 别 是 v=3 .468+1.1852 和 y=0.001 6985+11.964 77x， 
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与 用 于 生成 该 数据 的 真实 模型 非常 接近 。 该 数据 实际 是 由 模型 v=3 .5+1 .0x 和 y=0+12x 再 加 上 高 
斯 噪声 生成 的 。 在 图 9-53 上 可 以 看 到 图 9-4 的 数据 以 及 生成 的 线性 模型 。 
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图 9-5 ”在 图 9-4 数 据 集 上 应 用 模型 树 算法 得 到 的 结 


模型 树 、 回 归 树 以 及 第 8 章 里 的 其 他 模型 ， 哪 一 种 模型 更 好 呢 ? 一 个 比较 客观 的 方法 是 计算 
相关 系数 ， 也 称 为 R* 值 。 该 相关 系数 可 以 通过 调用 NumPy 库 中 的 命令 corrcoef (yHat，Yy， 
rowvar=0) 来 求解 其 中 yHat 是 了 预测 值 ， y 是 目标 变量 的 实际 值 。 

前 一 曹 使 用 了 标准 的 线性 回归 法 ,本 章 则 使 用 了 树 回 归 法 ,下面 将 通过 实例 对 二 者 进行 比较 ， 
最 后 用 了 消 数 corrcoef () 来 分 析 哪 个 模型 是 最 优 的 。 


9.6 示例 : 树 回归 与 标准 回归 的 比较 


前 面 介绍 了 模型 树 、 回 归 树 和 一 般 的 回归 方法 ,下 面 测 试 一 下 哪个 模型 最 好 。 本 市 首先 给 出 
一 些 函 数 , 它们 可 以 在 树 构建 好 的 情况 下 对 给 定 的 输入 进行 预测 , 之 后 利用 这 些 函数 来 计算 三 种 
归 模 型 的 测试 误差 。 这 些 模型 将 在 某 个 数据 上 进行 测试 , 该 数据 涉及 人 的 智力 水 平和 目 行 车 的 





























这 里 的 数据 是 非 线性 的 ， 不 能 简单 地 使 用 第 8 章 的 全 局 线性 模型 建 模 。 当 然 这 里 也 需要 声明 
一 下 ， 此 数据 纯 属 虚构 。 

下 面 完 给 出 在 给 定 输入 和 树 结 构 情 况 下 进行 预测 的 几 个 函数 。 打 开 regTrees.py 并 加 入 如 下 
代码 。 
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程序 清单 9-5 用 树 回 归 进 行 预测 的 代码 


def regTreeEval (model, inDat): 
return float (model) 


def modelTreeEval (model, inDat): 
n = shape (inDat) [11]1 
X = mat (ones((1,n+1))) 
X[:,1:n+1]=inDat 
return float (X*model) 


def treeForeCast (tree, inData, modelEval=regTreeEval): 


if not ijsTree (tree): return modelEval (tree, inData,) 
if inDataltree[l'spInd']] > tree['spVal']: 
if isTree (treel[l'left']): 
return treeForeCast (tree['left'], inData , modelEval) 
else: 
return modelEval (tree['left'], inData,) 
else: 
if isTree (treel['right'|]): 
return treeForeCast (tree['right'], inData , modelEval) 
else: 
return modelEval (tree['right'], inData) 


def createForeCast (tree, testData, modelEval=regTreeEval): 
m=len (testData,) 
yHat=mat (Ze 上 os ( (m 
for i in range (m) 
yHat [i,0] = 七 
return yHat 


对 于 输入 的 单个 数据 点 或 者 行 癌 量 ， 疯 数 treeForeCast () 会 返回 一 个 浮 点 值 。 在 给 定 树 结 
构 的 情况 下 ， 对 于 单个 数据 点 ,该 函数 会 给 出 一 个 预测 值 。 调 用 也 数 treeForecast () 时 需要 指 
定 树 的 类 型 ， 以 全 在 叶 节点 上 能 够 调用 合适 的 模型 。 参 数 modelEval 是 对 叶 节 点 数据 进行 预测 
的 函数 的 引用 。 浮 数 treeForecast () 目 顶 丫 下 遍历 整 棵 树 ， 直 到 命中 叶 节 点 为 止 。 一 旦 到 达 叶 
琅 点 ， 它 就 会 在 输入 数据 上 调用 modqelgval () 函数 ， 而 该 函数 的 默认 值 是 regTreeEval () 。 

要 对 回归 树叶 节点 进行 预测 ， 就 调用 困 数 regTreeEval () ; 要 对 模型 树 节 点 进行 预测 时 ， 
就 调用 modelTreeEval () 困 数 。 它 们 会 对 输入 数据 进行 格式 化 处 理 ， 在 原 数据 矩 阵 上 增加 第 0 
列 ， 然 后 计算 并 返回 预测 伸 。 为 了 与 函数 modelTreeEval () 保持 一 致 ， 尽管 egTreeEval () 
只 使 用 一 个 输入 ， 但 仍 保留 了 两 个 输入 参数 。 

最 后 一 个 疯 数 是 createForCast () ， 它 会 多 次 调用 treeForeCast () 图 数 。 由 于 它 能 够 以 
问 量 形式 返回 一 组 预测 值 , 因此 该 困 数 在 对 整个 测试 集 进行 预测 时 非常 有 用 。 下 面 很 快 会 看 到 这 

接 下 来 考虑 图 9-6 所 示 的 数据 。 该 数据 是 我 从 多 个 骑 目 行车 的 人 那里 收集 得 到 的 。 图 中 给 出 
骑 目 行车 的 速度 和 人 的 智商 之 间 的 关系 。 下 面 将 基于 该 数据 集 建立 多 个 模型 并 在 另 一 个 测试 集 上 
进行 测试 。 对 应 的 训练 集 数据 保存 在 文件 bikeSpeedVsIq train.txt 中 ， 而 测试 集 数据 保存 在 文件 
bikeSpeedVsIq test.txt 中 。 


2 


reeForeCast (tree, mat (testDatal[lil), modelEval) 
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且 自 行车 的 速度 

图 9-6 人们 骑 上 自行 车 的 速度 和 他 们 智商 之 间 的 关系 数据 。 该 数据 用 于 比较 树 回 归 模 型 
和 普通 的 线性 回归 模型 


下 面 将 为 图 9-6 的 数据 构建 三 个 模型 。 首 先 ， 将 程序 清单 9-$ 中 的 代码 保存 为 regTrees.py， 然 
后 在 Python 提示 符 下 输入 以 下 命令 : 


>>>reload (regTrees,) 


接 下 来 ,利用 该 数据 创建 一 棵 回归 树 : 





>>> trainMat=mat (regTrees.loadDataset ('bikeSpeedVsIq train.txt')) 
>>> testMat=mat (regTrees.loadDatasSet ('bikeSpeedVsIq test.txt')) 
>>> myTree=regTrees.createTree (trainMat, ops=(1,20)) 

>>> yHat = regTrees.createForeCast (myTree, testMat[:,0]) 

>>> Corrcoef (yHat, testMat[:,1],rowvar=0) [0,1] 


0.96408523182221306 
同样 地 ， 再 创建 一 棵 模型 树 : 


>>> myTree=regTrees.createTree (trainMat, regTrees .modelLeaf, 
regTrees.modelErr, (1,20)) 


>>> yHat = regTrees.createForeCast (myTree, testMat[:,0], 
regTrees.modelTreeEval) 
>>> Corrcoef (yHat, testMat[:,1],rowvar=0) [0,1] 


0.9760412191380623 

我 们 知道 ，R“ 值 越 接 近 1.0 越 好 ， 所 以 从 上 面 的 结果 可 以 看 出 ， 这 里 模型 树 的 结果 比 回归 树 
好 。 下 面 再 看 看 标准 的 线性 回归 效 末 如 何 ， 这 里 无 须 导 人 第 8 章 的 任何 代码 ， 本 章 已 实现 过 一 个 
线性 方程 求解 函数 1 inearSolve(): 


>>> WwSs8,X,Y=regTrees.linearSolve (trainMat) 
>>> WS 
matrix([[ 37.58916794],， 

[ 6.18978355] |]) 


为 了 得 到 测试 集 上 所 有 的 yHat 预 测 值 ， 在 测试 数据 上 循环 执行 
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>>> for i in range (shape (testMat) [0]): 
yHat [i] =testMat [i,0]*ws[1,0] +ws [0,0] 





三 | 2 

最 后 来 看 一 下 R- 值 : 

>>> Corrcoef (yHat, testMat[:,1],rowvar=0) [0,1] 
0.94346842356747584 


可 以 看 到 ， 该 方法 在 R“ 值 上 的 表现 上 不 如 上 面 两 种 树 回 归 方 法 。 所 以 , 树 回 归 方法 在 预测 复 
杂 数 据 时 会 比 简 单 的 线性 模型 更 有 效 , 相信 读者 对 这 个 绪论 也 不 会 感到 意外 。 下 面 将 展示 如 何 对 
回归 模型 进行 定性 的 比较 。 
下 面 使 用 Python 提 供 的 框 染 来 构建 图 形 用 户 界面 ( GUI ), 读者 可 以 使 用 该 GUI 来 探究 不 同 的 
回归 工具 。 











9.7 使 用 Python 的 Tkinter 库 创 建 GUI 


机 禹 学 习 给 我 们 提供 了 一 些 强 大 的 工具 ， 能 从 未 知 数据 中 抽取 出 有 用 的 信息 。 因 此 ， 能 和 否 将 
这 些 信息 以 易于 人 们 理解 的 方式 呈现 十 分 重要 。 有 下 者 ,假如 人 们 可 以 直接 与 算法 和 数据 交互 ,将 
可 以 比较 轻松 地 进行 解释 。 如 有 果 仅 仅 只 是 绘制 出 一 幅 静 态 图 像 ， 或 者 只 是 在 Python 命令 行 中 输出 
一 些 数字 ,那么 对 结 采 做 分 析 和 交流 将 非常 困难 。 如 采 能 让 用 户 不 需要 任何 指令 就 可 以 按照 他 们 
目 己 的 方式 来 分 析 数 据 , 就 不 需要 对 数据 做 出 过 多 解释 。 其 中 一 个 能 同时 支持 数据 呈现 和 用 户 交 
互 的 方式 就 是 构建 一 个 图 形 用 户 界 面 (GUI，Graphical User Interface )， 如 图 9-7 所 示 。 




















图 9-7 默认 的 treeExplore 图 形 用 户 界 面 ， 该 界面 同时 显示 了 输入 数据 和 一 个 回归 树 
模型 ， 其 中 的 参数 tolN=10，tolS=1.0 
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示例 : 利用 GUI 对 回归 树 调 优 
(1) 收集 数据 : 所 提供 的 文本 文件 。 
(2) 准备 数据 : 用 Python 解 析 上 述 文 件 ， 得 到 数值 型 数据 。 
(3) 分 析 数 据 : 用 Tkinter 构 建 一 个 GUI 来 展示 模型 和 数据 。 
(4) 训练 算法 : 训练 一 棵 回归 树 和 一 棵 模型 树 ， 并 与 数据 集 一 起 展示 出 来 。 
(5) 测试 算法 : 这 里 不 需要 测试 过 程 。 
(6) 使 用 算法 : GUI 使 得 人 们 可 以 在 预 剪 枝 时 测试 不 同 参数 的 影响 ， 还 可 以 帮助 我 们 选择 
模型 的 类 型 。 


接 下 来 将 介绍 如 何 用 Python 来 构建 GUI。 首 先 介绍 如 何 利用 一 个 现 有 的 模块 Tkinter 来 构建 
GUI， 之 后 介绍 如 何在 Tkinter 和 绘图 库 之 间 交 互 ， 最 后 通过 创建 GUI 使 人 们 能 够 目 己 探索 模型 树 
和 回归 树 的 奥秘 。 





9.7.1 用 Tkinter 创建 GU|I 


Python 有 很 多 GUI 框架 ， 其 中 一 个 易于 使 用 的 Tkinter， 是 随 Python 的 标准 编译 版 本 发 布 的 。 
Tkinter 可 以 在 Windows、Mac OS 和 大 多 数 的 Linux 平 台 上 使 用 。 
下 面 先 从 最 简单 的 Hello World 例 子 开 始 。 在 Python 提示 符 下 输入 以 下 命令 : 


>>> from Tkinter import * 
>>> root = Tk() 


这 时 会 出 现 一 个 小 窗口 或 者 一 些 错误 提示 。 要 想 在 窗口 上 显示 一 些 文 字 ， 可 以 输入 如 下 命令 : 


>>> myLabel = Label (root, text="Hello World") 
>>> myLabel .grid () 


输入 完毕 后 ， 文 本 框 里 就 会 显示 出 你 刚才 输入 的 文字 。 非 常 简单 吧 ! 

为 了 程序 的 完整 ， 应 该 再 输入 以 下 命令 : 

站 
这 条 命令 将 局 动 事 件 循环 ， 使 该 窗口 在 众多 事件 中 可 以 啊 应 鼠标 点 击 、 按 键 和 重 绘 等 动作 。 

Tkinter 的 GUI 由 一 些小 部 件 ( Widget ) 组 成 。 所 谓 小 部 件 ， 指 的 是 文本 框 〈Text Box )、 按 钮 
(Button )、 标 签 ( Label ) 和 复 选 按钮 ( Check Button ) 等 对 象 。 在 刚才 的 Hello World 例 子 中 ， 标 
签 myLabel 就 是 其 中 唯一 的 小 部 件 。 当 调用 myLabel 的 .griqd() 方 法 时 ,就 等 于 把 myLabel 的 位 

告诉 了 布局 管理 角 ( Geometry Manager )。Tkinter 中 提供 了 几 种 不 同 的 布局 管理 天 ， 其 中 

的 .grid() 方 法 会 把 小 部 件 安排 在 一 个 二 维 的 表格 中 。 用 户 可 以 设 定 每 个 小 部 件 所 在 的 行列 位 
置 。 这 里 没有 做 任何 设 定 ，myLabe1 会 默认 显示 在 0 行 0 列 。 

下 面 将 所 需 的 小 部 件 集成 在 一 起 构建 树 管理 硕 。 建 立 一 个 新 的 Python 文件 treeExplore.py， 并 
在 其 中 加 入 程序 清单 9-6 的 代码 。 
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程序 清单 9-6 ”用 于 构建 树 管 理 融 界面 的 Tkinter 小 部 件 


from numpy import * 


from Tkinter import * 
import regTrees 


def reDraw (tolSs,tolN): 
pass 


def drawNewTITree () : 
pass 


root=TKk () 
Label (root, text="Plot Place Holder") .grid(row=0, columnspan=3) 


Label (root, text="tolN") .grid (row=1, column=0) 

tolNentry = Entry (root) 

tolNentry.grid (row=1, column=1) 

tolNentry.insert (0,'107') 

Label (root, text="tolS") .grid (row=2, column=0) 

tolSentry = Entry (root) 

tolSentry.grid (row=2, column=1) 

tolSentry.insert (0,'1.07') 

Button (root, text="ReDraw'", command=drawNewTree) .grid (row=1, column=2,\ 
rowspan=3) 

chkBtnVvar = IntVar() 

chkBtn = Checkbutton (root, text='"'Model Tree'", variable = chkptnVar) 

chkBtn.gridl(row=3, column=0, columnspan=2) 


reDraw.rawDat = mat (regTrees.loadDataSsSet ('sine.txt')) 
reDraw.testDat = arange (min (reDraw.rawDat[:,0]),\ 

max (reDraw.rawDat[:,0]),0.01) 
reDraw(1.0, 10) 


root .mainloop() 


程序 清单 9-6 的 代码 建立 了 一 组 Tkinter 模 块 ， 并 用 网 格 布局 管理 器 安排 了 它们 的 位 置 ， 这 里 
还 给 出 了 两 个 绘制 占 位 从 ( plot placeholder ) 因数 ， 这 两 个 图 数 的 内 容 会 在 后 面 补 充 。 这 里 所 使 
用 代码 的 格式 与 前 面 的 例子 一 致 ， 即 首先 创建 一 个 zk 类 型 的 根部 件 然后 插入 标签 。 读 者 可 以 使 
用 .grid() 方 法 设 定 行 和 列 的 位 置 。 另 外 ， 也 可 以 通过 设 定 columnspan 和 zowspan 的 值 来 告诉 
布局 管理 带 是 否 允 许 一 个 小 部 件 跨 行 或 跨 列 。 除 此 之 外 还 有 其 他 设置 项 可 供 使 用 。 

还 有 一 些 新 的 小 部 件 暂时 未 使 用 到 ,这 些小 部 件 包括 文本 输入 框 ( Entry )、 复 选 按 钮 ( Check- 
button ) 和 按钮 整数 值 ( Intvar ) 等 。 其 中 Entry 部 件 是 一 个 允许 单行 文本 输入 的 文本 框 。 
Checkbutton 和 Intvar 的 功能 显而易见 : 为 了 读 取 checkbutton 的 状态 需要 创建 一 个 7 变量 , 也 
承 是 IntVar。 

最 后 初始 化 一 些 与 repraw() 关 联 的 全 局 变量 ， 这 些 变 量 会 在 后 面 用 到 。 这 里 没有 给 出 “ 退 
出 ”按钮 ， 因 为 如 果 用 户 想 退出 ， 可 以 通 Un 勾 个 窗口 ， 增 加 额外 的 退出 按钮 有 点 
多 此 一 举 。 假 如 读者 真 的 想 添 加 一 个 的 话 ， 可 以 输入 下 面 的 代码 来 实现 : 


Button(root, text='Quit',fg="black", command=root .quit) .grid (row=1, 
Column=2) 
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保存 程序 清单 9-6 的 代码 并 执行 ， 可 以 看 到 与 图 9-8 类 似 的 图 。 


Plot Place Holder 


tolN |10 
tolS |1.0 
| Model Tree 





图 9-8 ”使 用 多 个 Tkinter 部 件 创建 的 树 管理 器 


现在 GUI 可 以 按照 要 求 正常 运行 了， 下 面 利用 它 来 绘图 。 接 下 来 的 小 市 中 将 在 同一 幅 图 上 绘 
出 原始 数据 集 及 其 对 应 的 树 回归 预测 值 。 








9.7.2 ”集成 Matplotlib 和 Tkinter 


本 书 已 经 用 Matplotlib 绘 制 过 很 多 图 像 , 能 否 将 这 些 图 像 直 接 放 在 GUI 上 呢 ? 下 面 将 首先 介绍 
“后 并 ”的 概念 ， 然 后 通过 修改 Matplotlib 后 端 ( 仪 在 我 们 的 GUI 上 ) 达到 在 Tkinter 的 GUIL 上 绘图 的 
目的 。 

Matplotlib 的 构建 程序 包含 一 个 前 端 ， 也 就 是 面 癌 用 户 的 一 些 代 人 码 ， 如 plot () 和 scatter () 
方法 等 。 事实 上 , 它 同 时 创建 了 一 个 后 端 ， 用 于 实现 绘图 和 不 同 应 用 之 间接 口 。 通 过 改变 后 端 可 
以 将 图 像 绘 制 在 PNG、PDF 、SVG 等 格式 的 文件 上 。 下 面 将 设置 后 端 为 TkAgg〈Agg 是 一 个 C++ 
的 库 ， 可 以 从 图 像 创建 光栅 图 ”)。TkAgg 可 以 在 所 选 GUI 框 架 上 调用 Agg， 把 Agg 呈 现在 画布 上 。 
我 们 可 以 在 Tk 的 GUI 上 放置 一 个 画布 ， 并 用 .griq() 来 调整 布局 。 

对 用 画布 来 蔡 换 绘制 占 位 符 ， 删 反对 应 标签 并 旅 加 以 下 代码 : 

reDraw.f = Figure (figsize=(5,4), dpi=100) 

reDraw.canvas = FigureCanvasTkAgg (reDraw.f, master=root) 


reDraw.canvas .show() 
reDraw.canvas.get tk widget () .grid (row=0, columnspan=3) 


现在 将 树 创建 函数 与 该 画布 链接 起 来 。 看 一 下 实际 效果 ， 打开 treeExplore.py 并 添加 下 面 的 代 
人 码 。 注 意 我 们 之 前 实现 过 reDraw () 和 drawTree() 的 存根 ( stub )， 确 保 同 一 个 国 数 不 要 重复 
出 现 。 


程序 清单 9-7 Matplotlib 和 Tkinter 的 代码 集成 


import matplotlib 

matplotlib.use('TkAgg'!') 

from matplotlib.backends .backend tkagg import FigureCanvasTkAgg 
from matplotlib.figure import Figure 























OD 光栅 图 也 称 为 位 图 、 点 阵 图 、 像 素 图 ， 按 点 阵 保存 图 像 ， 放 大 会 有 失真 。 与 光栅 图 相对 的 是 矢量 图 ， 也 称 为 向 量 图 。 
一 一 译 者 注 
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def reDraw (tolSs,tolN): 
reDraw.f .clf () 
reDraw.a = reDraw.f .add subplot (111) .9 检查 复 选 框 是 否 选中 
if chkBptnVar.get () : 
if tolN < 2: tolN = 2 
myTree=regTrees.createTree (reDraw.rawDat, regTrees.modelLeaf,\ 
regTrees.modelErr, (tolSs,tolN)) 
yHat = regTrees.createForeCast (myTree, reDraw.testDat, \ 
regTrees.modelTreeEval) 


else: 
myTree=regTrees.createTree (reDraw.rawDat, ops= (tolS,tolN)) 
yHat = regTrees.createForeCast (myTree, reDraw.testDat) 
reDraw.a.sScatter (reDraw.rawDat[:,0], reDraw.rawDat[:,1], s=5) 


reDraw.a.plot (reDraw.testDat, yHat, linewidth=2.0) 
reDraw.canvas.show() 


def getInputs () : 
try: tolN = int (tolNentry.get()) 


except: 
tolN = 10 
print “enter 工人 Eee for toOLN" ER 、 Re 
tolNentry .delete (0, END) /月 除 错 I] 天 的 输入 并 用 默认 值 入 换 
tolNentry.insert (0,'10') 局 

try: tolSs = float (tolSentry.get()) 

except: 
tolS = 1.0 


print "enter Float for tols" 

tolSentry.delete(0, END) 

tolSentry.insert (0,'1.0') 
return tolN,tols 


def drawNewTlree () : 
tolN,tolSs = getInputs () 
reDraw (tolSs,tolN) 


上 述 程序 中 一 开始 导 和 人 Matplotlib 文 件 并 设 定 后 端 为 TkAgg。 接 下 来 的 两 个 import 声 明 将 
TkAgg 和 Matplotlib 图 链接 起 来 。 

完 来 介绍 也 数 drawNewTree ()。 从 程序 清单 9-6 可 知 , 在 有 人 点 击 ReDraw 按 钮 时 就 会 调用 该 
函数 。 国 数 实 现 了 两 个 功能 : 第 一 ， 调 用 getInputs () 方 法 得 到 输入 框 的 值 ; 第 二 ， 利 用 该 值 
调用 repraw () 方 法 生成 一 个 漂亮 的 图 。 下 面 对 这 些 吨 数 进 行 逐 个 介绍 。 

印 数 getInputs () 试 网 理解 用 户 的 输入 并 防止 程序 骨 溃 。 其 中 tols 期 望 的 输入 是 浮 点 数 ， 
而 tolN 期 望 的 输入 是 整数 。 为 了 得 到 用 户 输入 的 文本 ， 可 以 在 Entry 部 件 上 调用 ,人 GE 方法。 
虽然 表单 验证 会 在 GUI 编程 时 花费 大 量 的 时 间 ， 但 这 一 点 对 于 用 户 体验 来 说 必 不 可 少 。 夯 外 , 这 
里 使 用 了 try: 和 except :模式 。 如 条 Python 可 以 把 输入 文本 解析 成 整数 就 继续 执行 , 如 果 不 能 识 
别 则 输出 错误 消息 ， 同 时 清空 输入 框 并 恢复 其 默认 值 @@。 对 tols 而 言 也 存在 同样 的 处 理 过 程 ， 
最 后 返回 输入 值 。 

函数 reDraw () 的 主要 目的 是 把 树 绘制 出 来 。 该 函数 假定 输入 是 合法 的 , 它 首 先 要 做 的 是 
清空 之 前 的 图 像 ， 使 得 前 后 两 个 图 像 不 会 重 辣 。 清 空 时 图 像 的 各 个 子 图 也 都 会 被 清除 ， 所 以 
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需要 重新 添加 一 个 新 图 。 接 下 来 郴 数 会 检查 复 选 框 是 否 被 选中 全 .根据 复 选 框 是 否 被 选中 , 确 
定 基于 to1S 和 tolN 人 参数 构建 模型 树 还 是 回归 树 。 当 树 构 建 完 成 之 后 就 对 测试 集 testDat 进 行 
预测 ， 该 测试 集 与 训练 集 有 相同 的 范围 是 点 的 分 布 艾 习 。 最 后 ， 真 实数 据 和 预测 信和 都 被 绘制 
出 来 。 具 体 实 现 是 ， 真 实 值 采 用 scatter () 方 法 绘制 ， 而 预测 值 则 采用 plot () 方 法 绘制 ， 这 
是 因为 scatter () 方 法 构建 的 是 离散 型 散 点 图 ， 而 plot () 方 法 则 构建 连续 曲线 。 

下 面 看 一 下 实际 效果 ， 保 存 treeExplore.py 并 执行 。 如 果 读 者 使 用 开发 环境 IDE 来 编码 ， 那 么 
可 以 用 run 命 令 来 运行 程序 。 在 命令 行 下 可 以 直接 使 用 命令 python treeExplore.py 来 运行 。 
执行 完 之 后 应 该 可 以 看 到 类 似 于 图 9-7 的 结 

图 9-7 的 GUI 包 含 了 图 9-8 所 有 的 小 部 件 ， 而 占 位 符 末 用 Matplotlib 图 蔡 换 。 上 默认 情况 下 会 给 出 
一 棵 包含 八 个 叶 市 点 的 回归 树 (参见 图 9-7 ), 我 们 也 可 以 尝试 模型 树 。 通 过 选中 模型 树 的 复 选 框 ， 
再 点 击 ReDraw 按 钮 ， 就 应 该 可 以 看 到 类 似 于 图 9-9 的 模型 树 结 











ReDraw 
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图 9-9 用 treeExplore 的 GUI 构 建 的 模型 树 ， 该 图 使 用 了 与 图 9-7 相 同 的 数据 和 参 
数 。 与 回归 树 相 比 ， 模 型 树 取得 了 更 好 的 预测 效果 


读者 可 以 在 上 述 treeExplore 中 尝试 不 同 的 参数 值 。 整 个 数据 集 包 含 200 个 样本 ， 可 以 将 
tolN 设 为 150 后 观察 执行 效果 。 为 构建 尽 可 能 大 的 树 ， 应 当 将 tolN 设 为 1， 将 tolS 设 为 0。 读 者 可 
以 测试 一 下 并 观察 执行 的 效果 。 
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9.8 本 章 小 结 


数据 集中 经 党 包含 一 些 复杂 的 相互 关系 , 使 得 输入 数据 和 目标 变量 之 间 呈 现 非 线性 关系 。 对 
这 些 复 杂 的 关系 建 模 ,一 种 可 行 的 方式 是 使 用 树 来 对 预测 值 分 段 , 包括 分 段 和 常数 或 分 段 直 线 。 一 
般 采 用 树 结构 来 对 这 种 数据 建 模 。 相 应 地 ， 硅 叶 厄 点 使 用 的 模型 是 分 段 常 数 则 称 为 回归 树 ， 奎 叶 
节点 使 用 的 模型 是 线性 回归 方程 则 称 为 模型 树 。 

CART 算 法 可 以 用 于 构建 二 元 树 并 处 理 离散 型 或 连续 型 数据 的 切 分 。 大 使 用 不 同 的 误差 准则 ， 
就 可 以 通过 CART 算 法 构建 模型 树 和 回归 树 。 该 算法 构建 出 的 树 会 倾 回 于 对 数据 过 拟 合 。 一 棵 过 
拟 合 的 树 和 常常 十 分 复杂 , 剪 枝 技术 的 出 现 就 是 为 了 解决 这 个 问题 ,两 种 前 枝 方 法 分 别 是 预 前 枝 ( 在 
树 的 构建 过 程 中 就 进行 剪 校 ) 和 后 剪 校 〈 当 树 构 建 完 毕 再 进行 剪 校 )， 预 剪 校 更 有 效 但 需要 用 户 
定义 一 些 参 数 。 

Tkinter 是 Python 的 一 个 GUI 工具 包 。 虽 然 并 不 是 唯一 的 包 ， 但 它 最 稼 用 。 利 用 Tkinter， 我 们 
可 以 轻松 绘制 各 种 部 件 并 灵活 安排 它们 的 位 置 。 另 外 , 可 以 为 Tkinter 构 造 一 个 特殊 的 部 件 来 显示 
Matplotlib 绘 出 的 图 。 所 以 ，Matplotlib 和 Tkinter 的 集成 可 以 构建 出 更 强大 的 GUI, 用 户 可 以 以 更 自 
然 的 方式 来 探索 机 可 学 习 算 法 的 奥妙 。 

本 章 是 回归 的 最 后 一 草 , 希望 谈 者 没有 错过 。 接 下 来 我 们 将 离开 监督 学 习 的 昌 屿 ， 驶 癌 无 监 
督学 习 的 未 知 港湾 。 在 回归 和 分 类 ( 监督 学 习 ) 中 ,目标 变量 的 值 是 已 知 的。 在 后 面 的 草 市 将 会 
看 到 ， 无 监督 学 习 中 上 述 条 件 将 不 再 成 立 。 下 一 童 的 主要 内 容 是 K- 均 值 聚 类 算法 。 



























































第 三 部 分 
无 监督 学 习 





这 一 部 分 介绍 的 是 无 监督 机 如 学 习 方 法 。 该 主题 与 前 两 部 分 有 所 不 同 。 在 无 监督 学 习 中 ， 
类 似 分 类 和 回归 中 的 目标 变量 事先 并 不 存在 。 与 前 和 面 “ 对 于 输入 数据 X 能 预测 变量 Y” 不 同 的 是 ， 
这 里 要 回答 的 问题 是 :“ 从 数据 X 中 能 发 现 什 么 ? ”这 里 需要 回答 的 X 方 面 的 问题 可 能 是 :“ 构 
成 X 的 最 佳 6 个 数据 禾 都 是 哪 些 ? ”或 者 “X 中 哪 三 个 特征 最 频 葵 共 现 ? ” 

第 10 革 介 绍 了 无 监督 学 习 中 的 聚 类 (将 相似 项 聚 团 ) 方法 ， 包 括 k 均 值 聚 类 算法 。 第 11 
革 介 绍 了 基于 Apriori 算法 的 关联 分 析 或 者 称 购 物 篮 分 析 。 关 联 分 析 可 以 用 于 回答 “哪些 物品 经 
党 被 同时 购 严 ? ”之 类 的 问题 。 无 监督 学 习 部 分 的 最 后 一 革 ， 即 第 12 昔 将 介绍 一 个 更 高 效 的 天 
联 分析 算 法 : FP-growth 算法 。 





利用 K- 均 值 肾 类 算法 对 未 标 
注 效 据 分 组 





本 章 内 容 

D K- 均 值 聚 类 算法 

口 对 聚 类 得 到 的 禾 进 行 后 处 理 
D 二 分 K- 均 值 来 类 算法 

口 对 地 理 位置 进 行 聚 闫 


在 2000 年 和 2004 年 的 美国 总 统 大 选中 , 候选 人 的 得 票数 比较 接近 或 者 说 非常 接近 。 任 一 候选 
人 得 到 的 普选 景 数 的 最 大 百分比 为 530.7%， 而 最 小 上 百分比 为 47.9%。 如 条 1% 的 选民 将 手中 的 选 紧 
投 回 另外 的 候选 人 , 那么 选举 结果 就 会 截然 不 同 。 实 际 上 ， 如 采 肥 善 加 以 引导 与 吸引 ， 少 部 分 选 
民 就 会 转换 立场 。 尺 管 这 类 选举 者 占 的 比例 较 低 , 但 当 候 选 人 的 选票 接近 时 ,这 些 人 的 立场 无 疑 
会 对 选举 结果 产生 非常 大 的 影响 "。 如 何 找 出 这 类 选民 ， 以 及 如 何在 有 限 的 预算 下 采取 措施 来 吸 
引 他 们 ? 答案 就 是 聚 类 (Clustering )。 

接 下 来 介绍 如 何 通过 聚 类 实现 上 述 目 标 。 首 先 ,收集 用 户 的 信息 ， 可 以 同时 收集 用 户 满意 或 
不 满意 的 信息 , 这 是 因为 任何 对 用 户 重 要 的 内 容 都 可 能 影响 用 户 的 投票 结 末 。 然 后 , 将 这 些 信息 
输入 到 某 个 聚 类 算法 中 。 接 肴 ， 对 聚 类 结 采 中 的 每 一 个 复 〈 最 好 选择 最 大 租 )， 精 心 构造 能 够 吸 
引 该 复 选 民 的 消息 。 最 后 ， 开 展 竞 选 活动 并 观察 上 述 做 法 是 否 有 效 。 

聚 类 是 一 种 无 监督 的 学 习 ， 它 将 相似 的 对 象 归 到 同一 个 复 中 。 它 有 点 像 全 自动 分 类 ”。 聚 类 
方法 几乎 可 以 应 用 于 所 有 对 和 象 ， 秘 内 的 对 象 越 相 似 ， 聚 类 的 效果 越 好 。 本 章 要 学 习 一 种 称 为 K- 
均值 (K-means ) 聚 类 的 算法 。 之 所 以 称 之 为 K- 均 值 是 因为 它 可 以 发 现 k 个 不 同 的 许 ， 且 每 个 艇 的 
中 心 采 用 簇 中 所 含 值 的 均值 计算 而 成 。 下 面 会 逐步 介绍 该 算法 的 更 多 细 市 。 

在 介绍 K- 均 值 算法 之 前 ， 先 讨论 一 下 化 识别 ( cluster identification )。 秘 识别 给 出 聚 类 结 


























Q) 对 于 微 目标 策略 如 何 成 功用 于 2004 年 的 美国 总 统 大 选 的 细节 ， 请 参见 Fournier、Sosnik 与 Dowd 合 著 的 Applebee’s 
America ( Simon & Schuster, 2006 ) 一 书 。 
@) 这 里 的 自动 意思 是 连 类 别 体系 都 是 自动 构建 的 。 一 一 译 者 注 
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采 的 售 义 。 假 定 有 一 些 数据 ， 现 在 将 相似 数据 归 到 一 起 ， 族 识别 会 告诉 我 们 这 些 族 到底 都 是 
些 什 么 。 聚 类 与 分 类 的 最 大 不 同 在 于 ， 分 类 的 目标 事先 已 知 ， 而 聚 类 则 不 一 样 。 因 为 其 产生 
的 结果 与 分 类 相同 ， 而 只 是 类 别 没 有 预先 定义 ， 聚 类 有 时 也 被 称 为 无 监督 分 类 (unsupervised 
classification )。 

聚 类 分 析 试 图 将 相似 对 象 归 和 同一 复 , 将 不 相似 对 象 归 到 不 同 禾 。 相 似 这 一 概念 取决 于 所 选 
择 的 相似 度 计算 方法 。 前 面 草 市 已 经 介绍 了 不 同 的 相似 度 计算 方法 ， 后 绪 草 市 它们 会 继续 出 现 。 
到 底 使 用 哪 种 相似 度 计算 方法 取决 于 具体 应 用 。 

下 面 会 构建 K- 均 值 方法 并 观察 其 实际 效果 。 接 下 来 还 会 讨论 简单 人 -均值 算 法 中 的 一 些 缺 陷 。 
为 了 解决 其 中 的 一 些 缺 陷 , 可 以 通过 后 处 理 来 产生 更 好 的 禾 。 接 着 会 给 出 一 个 更 有 效 的 称 为 二 分 
K- 均 值 ( bisecting k-means ) 的 聚 类 算法 。 本 章 的 最 后 会 给 出 一 个 实例 ， 该 实例 应 用 二 分 多 -均值 
算法 来 寻找 同时 造访 多 个 夜生活 热点 地 区 的 最 佳 停车 位 。 


10.1 KK- 均值 聚 类 算法 



























































K- 均 值 聚 类 
优点 : 容 萄 实现 。 
缺点 : 可 能 收敛 到 局 部 最 小 值 ， 在 大 规模 数据 集 上 收敛 较 慢 。 
适用 数据 类 型 : 数值 型 数据 。 


K- 均 值 是 发 现 给 定数 据 集 的 k 个 徐 的 算法 。 族 个 数 k 是 用 户 给 定 的 ， 每 一 个 族 通 过 其 质心 
( centroid )， 即 复 中 所 有 点 的 中 心 来 描述 。 

K- 均 值 算法 的 工作 流程 是 这 样 的 。 首 先 ， 随 机 确定 Ki 个 初始 点 作为 质心 。 然 后 将 数据 集中 的 
每 个 点 分 配 到 一 个 复 中 ,具体 来 讲 ， 为 每 个 点 找 距 其 最 近 的 质心 ,并 将 其 分 配给 该 质心 所 对 应 的 
和 族 。 这 一 步 完 成 之 后 ， 每 个 禾 的 质心 更 新 为 该 复 所 有 点 的 平均 值 。 

上 述 过 程 的 伪 代 码 表 示 如 下 : 

创建 k 个 点 作为 起 始 质 心 ( 经 常 是 随机 选择 ) 

当 任 意 一 个 点 的 簇 分 配 结果 发 生 改 变 时 

对 数据 集中 的 每 个 数据 点 
对 每 个 质心 
计算 质心 与 数据 点 之 间 的 距离 
将 数据 点 分 配 到 距 其 最 近 的 徐 
对 每 一 个 徐 ， 计算 化 中 所 有 点 的 均值 并 将 均值 作为 质心 
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K- 均 值 聚 类 的 一 般 流程 

(1) 收集 数据 : 使 用 任意 方法 。 

(2) 准备 数据 : 需要 数值 型 数据 来 计算 距离 ， 也 可 以 将 标 称 型 数据 映射 为 二 值 型 数据 再 用 
于 距离 计算 。 

(3) 分 析 数 据 : 使 用 任意 方法 。 

(4) 训练 算法 : 不 适用 于 无 监督 学 习 ， 即 无 监督 学 习 没 有 训练 过 程 。 

(5) 测试 算法 : 应 用 聚 类 算法 、 观 勾结 果 。 可 以 使 用 量化 的 误差 指标 如 误差 平方 和 ( 后面 
会 介绍 ) 来 评价 算法 的 结果 。 

(6) 使 用 算法 : 可 以 用 于 所 希望 的 任何 应 用 。 通 常情 况 下 ， 比 质心 可 以 代表 整个 禾 的 数据 
来 做 出 决策 。 


上 面 提 到 “最 近 ” 质 心 的 说 法 ， 意 味 着 需要 进行 某 种 距离 计算 。 读 者 可 以 使 用 所 喜欢 的 
任意 距离 度量 方法 。 数 据 集 上 K- 均 值 算法 的 性 能 会 受到 所 选 距离 计算 方法 的 影响 。 下 面 给 出 
K- 均 值 算法 的 代码 实现 。 首 先 创建 一 个 名 为 kMeans.py 的 文件 ， 然 后 将 下 面 程序 清单 中 的 代码 
添加 到 文件 中 。 


程序 清单 10-1 -均值 聚 类 支持 函数 


from numpy import * 




















def loadDataSet (fileName): 

dataMat = [] 

fr = open (fileName) 

for line in fr.readlines(): 
curLine = line.strip() .split('\t') 
fltLine = map (float,curLine) 
dataMat .append (fltLine) 

return dataMat 


def distEclud (vecA, vecB): 
return sqrt (sum(power (vecA - vecB, 2))) 


def randCent (dataSsSet, k): 
n = shape (dataSet) [1] 


centroids = mat (zeros ( (k,n))) | 构建 徐 质 心 
for ] in range (n): 

minJ = min(dataSset[:,j]) 

rangeJ = float (max(dataSet[:,j]) - minyJ) 

centroids[:,j] = minJ + rangeJ * random.rand(k,1) 


return centroids 
程序 清单 10-1 中 的 代码 包含 几 个 K- 均 值 算法 中 要 用 到 的 辅助 孙 数 。 第 一 个 函数 lo0adData- 
set () 和 上 一 章 完 全 相同 , 它 将 文本 文件 导入 到 一 个 列表 中 。 文 本 文件 每 一 行为 tab 分 隅 的 浮 点 数 。 
每 一 个 列表 会 被 添加 到 aqataMat 中 ， 最 后 返回 qaataMat。 该 返回 值 是 一 个 包含 许多 其 他 列表 的 列 
表 。 这 种 格式 可 以 很 容易 将 很 多 值 封 次 到 和 窍 阵 中 。 
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下 一 个 因数 aistEclua() 计算 两 个 回 量 的 欧式 距离 。 这 是 本 章 最 先 使 用 的 距离 函数 ， 也 可 
以 使 用 其 他 距离 函数 。 

最 后 一 个 咀 数 是 randCent (95 该 限 数 为 给 定数 据 集 构建 一 个 包含 k 个 随机 质心 的 集合 。 随机 
质心 必须 要 在 整个 数据 集 的 边界 之 内 , 这 可 以 通过 找到 数据 集 每 一 维 的 最 小 和 最 大 值 来 完成 。 然 
后 生成 0 到 1.0 之 间 的 随机 数 并 通过 取信 范围 和 最 小 值 ,以 便 确 保 随 机 点 在 数据 的 边界 之 内 。 接 下 
来 看 一 下 这 三 个 国 数 的 实际 效 末 。 保 存 KMeans.py 文 件 ， 然 后 在 Python 提示 人 符 下 输入 : 


>>> import kMeans 
>>> from numpy import * 


要 从 文本 文件 中 构建 矩阵 ， 输 入 下 面 的 命令 (第 10 章 的 源 代码 中 给 出 了 testSettxt 的 内 容 ) 

>>> datMat=mat (KMeans .loadDataSet ('teSstSet .七 XL 7) ) 

读者 可 以 了 解 一 下 这 个 二 维 矩 阵 ， 后 面 将 使 用 该 矩阵 来 测试 完整 的 K- 均 值 算法 。 下 面 看 看 
randcent () 函数 是 否 正常 运行 。 首 先 ， 先 看 一 下 矩阵 中 的 最 大 值 与 最 小 值 














>>> min(dqatMat [:,，0] ) 
matrix([[-5.379713]]) 
>>> min (datMat [:,1]) 
matrix([[-4.232586]]) 
>>> max (datMat [:,1]) 
matrix([[ 5.1904]]) 
>>> max (datMat [:,0]) 
matrix([[ 4.838138]]) 


然后 看 看 randCent () 图 数 能 否 生成 min 到 max 之 间 的 值 : 


>>> KMeans .randCent (datMat, 2) 
matrix([[-3.24278889, -0.04213842]， 
[-0.92437171, 3.19524231]]) 


从 上 面 的 结果 可 以 看 到 ， 了 负数 randcent () 确实 会 生成 min 到 max 之 间 的 值 。 上 述 结果 表明 ， 
这 些 函 数 都 能 够 按照 预想 的 方式 运行 。 最 后 测试 一 下 距离 计算 方法 : 

>>> kMeans .distEclud (datMat [0], datMat [1]) 

5.184632816681332 

所 有 文 持 限 数 正常 运行 之 后 ,就 可 以 准备 实现 完整 的 K- 均 值 算法 了 。 该 算法 会 创建 k 个 质心 ， 
然后 将 每 个 点 分 配 到 最 近 的 质心 , 再 重新 计算 质心 。 这 个 过 程 重 复数 次 ,下 到 数据 点 的 族 分 配 结 
果 不 再 改变 为 止 。 打 开 kMeans.py 文 件 输 入 下 面 程序 清单 中 的 代码 。 


程序 清单 10-2”K- 均 值 聚 类 算法 
def kMeans (dataSet, k, distMeas=distEclud, createCent=randCent): 
m = shape (dataSet) [0] 
clusterAssment = mat (zeros ((m,2))) 
centroids = createCent (dataset, k) 
clusterChanged = True 
while clusterChanged: 
clusterChanged = False 
for i in range (m) : 
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minDist = inf; minIndex = -1 
for j in range (k): A 
distJI = distMeas (centroids[]j],:],dataSset[i,:]) 
if distJI < minDisgst: 
minDist = distJI; minIindex = ] 
if clusterAssment [i,0] != minIndex: clusterChanged = True 
clusterAssment [i,:] = minIndex,minDist**2 、 a 
print centroids 更 新 质心 的 位 置 
for cent in range (k): 
ptsInClust = dataSet [nonzero(clusterAssment[:,0|] .A==cent) [0]] 


centroids[cent,:] = mean (ptsInClust, axis=0) 
return centroids, clusterAssment 


上 述 清单 给 出 了 K- 均 值 算法 。kMeans () 图 数 接受 4 个 输入 参数 。 只 有 数据 集 及 簇 的 数目 是 必 
选 参数 ， 而 用 来 计算 距离 和 创建 初始 质心 的 男 数 都 是 可 选 的 。kMeans () 图 数 一 开 始 确 定数 据 集中 
数据 点 的 总 数 , 然后 创建 一 个 矩阵 来 存储 每 个 点 的 簇 分 配 结果 。 簇 分 配 结果 和 矩 阵 clusterAssment 
包含 两 列 : 一 列 记录 艇 索引 值 ， 第 二 列 存 储 误差 。 这 里 的 误差 是 指 当 前 点 到 簇 质 心 的 距离 ， 后 边 
会 使 用 该 误差 来 评价 聚 类 的 效果 。 

按照 上 述 方式 ( 即 计算 质心 -分 配 -重新 计算 ) 反复 迭代 ， 直 到 所 有 数据 点 的 簇 分 配 结果 不 再 
改变 为 止 。 程 序 中 可 以 创建 一 个 标志 变量 clusterchanged， 如 果 该 值 为 True， 则 继续 迭代 。 
上 述 迭 代 使 用 whi1le 循 环 来 实现 。 接 下 来 遍历 所 有 数据 找到 趾 离 每 个 点 最 近 的 质心 ， 这 可 以 通过 
对 每 个 点 遍历 所 有 质心 并 计算 点 到 每 个 质心 的 距离 来 完成 @。 计算 距 离 是 使 用 distMeas 参 数 给 
出 的 距离 水 数 ， 默认 距离 水 数 是 distEclud()，, 该 函数 的 实现 已 经 在 程序 清单 10-1 中 给 出 。 如 果 
任 一 点 的 艇 分 配 结果 发 生 改 变 ， 则 更 新 clusterchanged 标 志 。 

最 后 , 遍历 所 有 质心 并 更 新 它们 的 取 值 @。 具体 实现 步骤 如 下 : 首先 通过 数组 过 滤 来 获得 给 
定 簇 的 所 有 点 ; 然后 计算 所 有 点 的 均值 ， 选 项 axis = 0 表示 沿 矩 阵 的 列 方向 进行 均值 计算 ; 最 
后 ， 程 序 返 回 所 有 的 类 质心 与 点 分 配 结果 。 图 10-1 给 出 了 一 个 聚 类 结果 的 示意 图 。 
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图 10-1 K- 均 值 罕 类 的 结 来 示意 图 。 图 中 数据 集 在 三 次 碗 代 之 后 收 僵 。 形 状 相 似 的 
数据 点 被 分 到 同样 的 簇 中 ， 簇 中 心 使 用 十 字 来 表示 
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接 下 来 看 看 程序 清单 10-2 的 运行 效果 。 保 存 kMeans .py 文件 后 ， 在 Python 提示 符 下 输入 : 


>>> reload (kMeans) 
<module 'kMeans' from 'kMeans .pyc'> 


如 于 没有 将 前 面 例子 中 的 aatMat 数 据 复制 过 来 , 则 可 以 输入 下 面 的 命令 ( 记 住 要 导入 NumpPy ): 
>>> datMat=mat (kMeans.loadDataSet ('testSet .txt')) 
现在 就 可 以 对 datMat 中 的 数据 点 进行 聚 类 人 处理 。 从 图 像 中 可 以 大 概 预 先知 道 最 后 的 结果 应 
该 有 4 个 艇 ， 所 以 可 以 输入 如 下 命令 : 
>>> myCentroids, clustAssing = kMeans.kMeans (datMat, 4) 
.06724228 0.21993975|] 
.73633558 -1.41299247] 
.59754537 3.15378974] 
.49190084 3.46005807]] 
.62111442 -2.36505947] 
.21588922 -2.88365904 


] 
.38799628 2.96837672] 
.6265299 3.10868015]] 
] 
] 
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.53973889 -2.89384326 
.65077367 -2.79019029 
.46154315 2.78737555] 

[ 2.6265299 3.10868015]] 


上 面 的 结果 给 出 了 4 个 质心 。 可 以 看 到 ， 经 过 3 次 迭代 之 后 K- 均 值 算法 收 僵 。 这 4 个 质心 以 及 
原始 数据 的 散 点 图 在 图 10-1 中 给 出 。 

到 目前 为 止 , 关于 聚 类 的 一 切 进展 都 很 顺利 , 但 事情 并 不 总 是 如 此 。 接 下 来 会 讨论 K- 均 值 算 
法 可 能 出 现 的 问题 及 其 解决 办 法 。 


10.2 ”使 用 后 处 理 来 提高 聚 类 性 能 


前 面 提 到 , 在 K- 均 值 聚 类 中 簇 的 数目 是 一 个 用 户 预 完 定义 的 参数 , 那么 用 户 如 何 才能 知道 k 
的 选择 是 否 正确 ? 如 何 才能 知道 生成 的 禾 比 较 好 呢 ? 在 包含 复 分 配 绪 采 的 矩阵 中 保存 看 每 个 点 
的 误差 ， 即 该 点 到 簇 质心 的 距离 平方 值 。 下 面 会 讨论 利用 该 误差 来 评价 聚 类 质量 的 方法 。 

考 奈 网 10-2 中 的 聚 类 结 采 ， 这 是 在 一 个 包含 三 个 复 的 数据 集 上 运行 久 - 均 信 算 法 之 后 的 结 
但 是 点 的 簇 分 配 结 采 值 没有 那么 准确 。K- 均 值 算法 收敛 但 聚 类 效 末 较 差 的 原因 是 , K- 均 值 算法 收 
敛 到 了 局 部 最 小 值 ， 而 非 全 局 最 小 值 ( 局 部 最 小 值 指 结果 还 可 以 但 并 非 最 好 结果 ,全 局 最 小 值 是 
可 能 的 最 好 纺 末 )。 

-种 用 于 度量 聚 类 效果 的 指标 是 SSE ( Sum of Squared Error， 误 差 平 方 和 )， 对 应 程序 清单 10-2 

中 clusteraAssment 和 矩阵 的 第 一 列 之 和 。SSE 值 越 小 表示 数据 点 越 接 近 于 它们 的 质心 ， 聚 类 效果 也 
越 好 。 因 为 对 误差 取 了 平方 ， 因 此 更 加 重视 那些 远离 中 心 的 点 。 一 种 肯定 可 以 降低 SSE 值 的 方法 是 
增加 禾 的 个 数 ， 但 这 违背 了 聚 类 的 目标 。 聚 类 的 目标 是 在 保持 和 族 数 目 不 变 的 情况 下 提高 篮 的 质量 。 

那么 如 何 对 图 10-2 的 结 末 进行 改进 ? 你 可 以 对 生成 的 簇 进 行 后 处 理 , 一 种 方法 是 将 具有 最 大 
SSE 值 的 秘 划 分 成 两 个 族 。 具体 实 现时 可 以 将 最 大 秘 包 含 的 点 过 滤 出 来 并 在 这 些 点 上 运行 K- 均 值 
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算法 ， 其 中 的 有 设 为 2。 
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图 10-2 ”由 于 质心 随机 初始 化 导致 K- 均 值 算 法 效 末 不 好 的 一 个 例子 ， 这 需要 额外 的 
后 处 理 操 作 来 清理 聚 类 结 


为 了 保持 艇 总 数 不 变 ， 可 以 将 菏 两 个 族 进 行 合 并 。 从 图 10-2 中 很 明显 就 可 以 看 出 ， 应 该 将 图 
下 部 两 个 出 错 的 禾 质 心 进行 合并 。 可 以 很 容易 对 二 维 数据 上 的 聚 类 进行 可 视 化 , 但 是 如 果 遇 到 40 
维 的 数据 应 该 如 何 去 做 ? 

有 两 种 可 以 量化 的 办 法 : 合并 最 近 的 质心 ， 或 者 合并 两 个 使 得 SSE 增 幅 最 小 的 质心 。 第 一 种 
思路 通过 计算 所 有 质心 之 间 的 距离 ,然后 合并 距离 最 近 的 两 个 点 来 实现 。 第 二 种 方法 需要 合并 两 
个 复 然 后 计算 总 SSE 值 。 必 须 在 所 有 可 能 的 两 个 徐 上 重复 上 述 处 理 过 程 ， 和 直到 找到 合并 最 佳 的 两 
个 复 为 止 。 接 下 来 将 讨论 利用 上 述 复 划分 扩 术 得 到 更 好 的 聚 类 结 采 的 方法 。 


10.3 ”二 分 K- 均 值 算法 


为 克服 K- 均 值 算法 收敛 于 局 部 最 小 值 的 问题 ， 有 人 提出 了 为 一 个 称 为 二 分 K- 均 值 ( bisecting 
K-means ) 的 算法 。 该 算法 首先 将 所 有 点 作为 一 个 族 ， 然 后 将 该 族 一 分 为 二 。 之 后 选择 其 中 一 个 
簇 继续 进行 划分 ， 选 择 哪 一 个 族 进 行 划 分 取决 于 对 其 划分 是 否 可 以 最 大 程度 降低 SSE 的 值 。 上 述 
基于 SSE 的 划分 过 程 不 断 重 复 ， 直 到 得 到 用 户 指定 的 族 数 目 为 止 。 

二 分 K- 均 值 算法 的 伪 代 码 形式 如 下 : 

将 所 有 点 看 成 一 个 禾 

当 答 数目 小 于 [时 
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对 于 每 一 个 黎 
计算 总 误差 
在 给 定 的 徐 上 面 进行 K- 均 值 聚 类 ( 所 2 ) 
计算 将 该 禾 一 分 为 二 之 后 的 总 误差 
选择 使 得 误差 最 小 的 那个 化 进行 划分 操作 
尺 一 种 做 法 是 选择 SSE 最 大 的 篮 进 行 划 分 ， 生 到 复数 目 达 到 用 户 指定 的 数目 为 止 。 这 个 做 法 
听 起 来 并 不 难 实现 。 下 面 就 来 看 一 下 该 算法 的 实际 效 采 。 打 开 kMeans.py 文 件 然后 加 入 下 面 程序 
清单 中 的 代码 。 


程序 清单 10-3 ”二 分 K- 均 值 聚 类 算法 


def bikmeans (dataSet, k, distMeas=distEclud): 
m = shape (dataSet) [0] 








clusterAssment = mat (zeros ( (m,2))) 
centroid0 = mean(dataSet, axis=0) .tolist() [0] 局 创建 一 个 初始 徐 
centList =[centroido0] 
for ] in range (m) : 
clusterAssment[]j,1] = distMeas (mat (centroid0), dataSet [Jj],:|])**2 
while (len(centList) < k): 
lowestSSE = inf 
for i in range (len (centList)): 
ptsInCurrCluster =\ 尝试 划分 
dataSset [nonzero(clusterAssment[:,0] .A==i) [0],:] 每 一 艇 
centroidMat, splitClustAss = \ 
kMeans (ptsInCurrCluster, 2 , distMeas) 
sseSplit = sum(splitClustAss[:,1]) 
ssSeNotSplit = \ 
sum(clusterAssment [nonzero(clusterAssment [:,0] .A!=i) [0] ,1]) 
print "sseSplit, and notSplit: '",sseSplit,sseNotSplit 
if (sseSplit + sseNotSplit) < lowestSsSseE: 
bestCentToSplit = i 
bestNewCents = centroidMat 
bestClustAss = splitClustAss.copy () 
lowestSSE = sseSplit + sseNotSplit 
bestClustAss [nonzero WS SRS [:,0] .A == 1) [0],0] =\ 更 新 比 的 
len (centList) 分 配 结果 
bestClustAss [nonzero (bestClustAss[:,0] .A == 0) [0],0] =\ 一 
bestCentToSplit 
print 'the bestCentToSplit is: ',bestCentToSplit 
print 'the len of bestClustAss is: ', len(bestClustAss) 


centList[bestCentToSplit] = bestNewCents[0,:] 
centList.append (bestNewCentsSs [1，: ] ) 
clusterAssment [nonzero(clusterAssment[:,0] .A == 


bestCentToSplit) [0],:]= bestClustAss 
return mat (centList), clusterAssment 


上 述 程序 中 的 函数 与 程序 清单 10-2 中 函数 kMeans () 的 参数 相同 。 在 给 定数 据 集 、 所 期 望 的 
复数 目 和 距离 计算 方法 的 条 件 下 ， 肯 数 返回 聚 类 结果 。 同 kMeans () 一样 ， 用 户 可 以 改变 所 使 用 
的 距离 计算 方法 。 
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该 亢 数 首先 创建 一 个 矩阵 来 存储 数据 集中 每 个 点 的 簇 分 配 结果 及 平方 误差 , 然后 计算 整个 数 
据 集 的 质心 , 并 使 用 一 个 列表 来 保留 所 有 的 质心 人 @,。 得 到 上 述 质 心 之 后 ,可 以 遍历 数据 集中 所 有 
点 来 计算 每 个 点 到 质心 的 误差 值 。 这 些 误差 值 将 会 在 后 面 用 到 。 

接 下 来 程序 进入 whi1le 循 环 , 该 循环 会 不 停 对 艇 进行 划分 ， 直 到 得 到 想 要 的 艇 数目 为 止 。 可 
以 通过 考察 艇 列表 中 的 值 来 获得 当前 徐 的 数目 。 然后 遍历 所 有 的 簇 来 决定 最 佳 的 簇 进行 划分 。 为 
此 需要 比较 划分 前 后 的 SSE。 一 开始 将 最 小 SSE 置 设 为 无 穷 大 , 然后 遍历 簇 列 表 centList 中 的 
一 个 禾 。 对 每 个 禾 ， 将 该 禾 中 的 所 有 点 看 成 一 个 小 的 数据 集 ptsIncurrCluster 。 将 
ptsInCcurrCluster 输 入 到 因数 kMeans () 中 进行 处 理 (上 = 2 )。K- 均 值 算法 会 生成 两 个 质心 
(得 )， 同 时 给 出 每 个 篮 的 误差 值 @@。 这 些 误 差 与 剩余 数据 集 的 误差 之 和 作为 本 次 划分 的 误差 。 如 
果 该 划分 的 SSE 值 最 小 ， 则 本 次 划分 被 保存 。 一 旦 决定 了 要 划分 的 篮 ， 接 下 来 就 要 实际 执行 划分 
操作 。 划 分 操作 很 容易 ， 只 需要 将 要 划分 的 簇 中 所 有 点 的 簇 分 配 结果 进行 修改 即 可 。 当 使 用 
kMeans () 函数 并 且 指 定 复数 为 2 时 , 会 得 到 两 个 编号 分 别 为 0 和 1 的 结果 禾 。 需 要 将 这 些 禾 编号 修 
改 为 划分 复 及 新 加 篮 的 编号 ， 该 过 程 可 以 通过 两 个 数组 过 滤器 来 完成 全 .最 后 ， 新 的 复 分 配 结 
被 更 新 ， 新 的 质心 会 被 添加 到 centList 中 。 

当 while 循 环 结束 时 ， 同 kMeans () 国 数 一 样 ， 困 数 返 回 质心 列表 与 禾 分 配 结果 。 

下 面 看 一 下 实际 运行 效果 。 将 程序 清单 10-3 中 的 代码 添加 到 文件 KMeans.py 并 保存 ， 然 后 在 
Python 提示 符 下 输入 : 


>>> reload (KMeans ) 
<module 'kMeans' from 'kMeans .Py' > 


可 以 在 最 早 的 数据 集 上 运行 上 述 过程 ， 也 可 以 通过 如 下 命令 来 导入 图 10-2 中 那个 “ 较 难 ”的 
数据 集 : 

>>> datMat3=mat (kMeans .loadDataSsSet ('testSet2.txt')) 

要 运行 函数 bikmeans () ， 输 入 如 下 命令 : 

>>> centList,myNewAssments=kMeans .bikmeans (datMat3,3) 

sseSplit, and notSplit: 491.233299302 0.0 

the bestCentToSplit is: 0 

the len of bestClustAss is: 60 

sseSplit, and notSplit: 75.5010709203 35.9286648164 

sseSplit, and notSplit: 21.40716341 455.304634485 


the bestCentToSplit is: 0 
the len of bestClustAss is: 40 















































现在 看 看 质心 结果 : 

>>> CentLigst 

[matrix([[-3.05126255, 3.2361123 1]1]),， matrix([[-0.28226155, -2.4449763 1]1]),， 
matrix([[ 3.1084241, 3.0396009]1])] 








上 上 述 子 数 可 以 运行 多 次 ， 聚 类 会 收敛 到 全 局 最 小 值 ， 而 原始 的 kMeans () 函数 偶尔 会 陷入 局 
部 最 小 值 。 图 10-3 给 出 了 数据 集 及 运行 bikmeans () 后 的 的 质心 的 示意 图 。 
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图 10-3 ”运行 二 分 K- 均 值 算 法 后 的 复 分 配 示意 图 ， 该 算法 总 是 产生 较 好 的 聚 类 结 


前 面 已 经 运行 了 二 分 K- 均 值 算 法 ， 下 面 将 该 算法 应 用 于 一 些 真实 的 数据 集 上 。 下 一 人 将 利用 
地 图 上 的 地 理 位 置 坐 标 进 行 聚 闫 。 


10.4 示例 : 对 地 图 上 的 点 进行 聚 类 


假如 有 这 样 一 种 情况 : 你 的 朋友 Drew 硕 望 你 市 他 去 城 里 庆祝 他 的 生日 。 由 于 其 他 一 些 朋 友 
也 会 过 来 ， 所 以 需要 你 提供 一 个 大 家 都 可 行 的 计划 。Drew 给 了 你 一 些 他 希望 去 的 地 址 。 这 个 地 
址 列表 很 长 ， 有 70 个 位 置 。 我 把 这 个 列表 保存 在 文件 portland-Clubs.txt 中 ， 该 文件 和 源 代码 一 起 
打包 。 这 些 地 址 其 实 都 在 俄 勒 交州 的 波 特 兰 地 区 。 

也 就 是 说 , 一 晚上 要 去 70 个 地 方 ! 你 要 决定 一 个 将 这 些 地 方 进行 聚 类 的 最 佳 策略 ， 这 样 就 可 
以 安排 交通 工具 抵达 这 些 复 的 质心 ， 然 后 步行 到 每 个 复 内 地 址 。Drew 的 清单 中 虽然 给 出 了 地 址 ， 
但 是 并 没有 给 出 这 些 地 址 之 间 的 距离 远近 信息 。 因 此 ,你 要 得 到 每 个 地 址 的 纬度 和 经 度 ， 然 后 对 
这 些 地 址 进行 聚 类 以 安排 你 的 行程 。 


























示例 : 对 于 地 理 数 据 应 用 二 分 K- 均 值 算法 
(1) 收集 数据 : 使 用 Yahoo! PlaceFinder API 收 集 数据 。 
(2) 准备 数据 : 只 保留 经 纬度 信息 。 
(3) 分 析 数 据 : 使 用 Matplotlib 米 构建 一 个 二 维 数据 图 ， 其 中 包含 徐 与 地 图 。 
(4) 训练 算法 : 训练 不 适用 无 监督 学 习 。 
(9) 测试 算法 : 使 用 10.4 节 中 的 bikmeans () 函数 。 
(6) 使 用 算法 : 最 后 的 输出 是 包含 炙 及 化 中 心 的 地 图 。 
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你 需要 一 个 服务 来 将 地 址 转换 为 纬度 和 经 度 。 竺 运 的 是 ,雅虎 提供 了 这 样 的 服务 。 下 面 将 介 
绍 Yahoo! PlaceFinder API 的 使 用 方法 。 然 后， 对 给 出 的 地 址 坐标 进行 聚 类 ， 最 后 画 出 所 有 点 以 及 
和 族 中 心 ， 并 看 看 聚 类 结果 到 底 如 何 。 





10.4.1 _ Yahool PlaceFinder AP| 


雅虎 的 牛人 们 已 经 为 我 们 提供 了 一 个 免费 的 地 址 转换 API， 该 API 对 给 定 的 地 址 返回 该 地 址 
对 应 的 纬度 与 经 度 。 访 问 下 面 的 URL 可 以 了 解 更 多 细节 : http://developer.yahoo.com/geo/ 
placefinder/guide/。 

为 了 使 用 该 服务 , 需要 注册 以 获得 一 个 APIkey。 具体 地 , 你 需要 在 Yahoo! 开 发 者 网 络 (http:/ 
developer.yahoo.com/ ) 中 进行 注册 。 创建 一 个 桌面 应 用 后 会 获得 一 个 appid。 需要 appid 来 使 用 
geocoder。 一 个 geocoder 接 受 给 定 地 址 ， 然 后 返回 该 地 址 对 应 的 经 纬度 。 下 面 的 代码 将 上 述 所 有 
过 程 进行 了 封装 处 理 。 打 开 kMeans.py 文 件 ， 然 后 加 入 下 列 代 码 。 








程序 清单 10-4 Yahoo! PlaceFinder API 


import urllib 
import json 
def geoGrab (stAddress, city): 
apiStem = 'http://where.yahooapis.com/geocode?'! 


params = {} -9 将 返回 类 型 设 为 JSON 
params['flags'] = 'J' 

params['appid'] = 'pppP6E8N8t' 

params['location'] = '%s %s' $$ (stAddress, city) 

url params = urllib.urlencode (params) 

yahooApi = apiStem + url params 9 打印 输出 的 的 URL 
print yahooApi 


c=urllib.urlopen (yahooApi) 
return json.loads(c.read()) 


from time import sleep 
def massplacerFind (fileName): 


fw = open('places.txt', 'w') 
for line in open(fileName) .readlines (): 
line = line.strip!() 
lineArr = line.split('\t') 
retDict = geoGrab (lineArr[1], lineArr[2|]) 
if retDict['ResultSsSet'] ['Error'] == 
lat = float (retDict['ResultSet'] ['Results'] [0] ['latitude'l]) 
lng = float (retDict['ResultSet'] ['Results'] [0] ['longitude']) 


print "gSs\t$Sf\t%f" $$ (lineArr[0], lat, lng 
fw.write('%Ss\tS$f\tsf\n' $$ (line, lat, lng) 
else: print "error fetching" 
sleep (1) 
fw.close() 


上 述 程 序 包 含 两 个 了 滑 数 . deoGrab ( ) 与 massPlaceFind (J 疯 数 geoGrab () 从 Yahoo! 返 回 
一 个 字典 ，massPlaceFind() 将 所 有 这 些 封装 起 来 并 且 将 相关 信息 保存 到 文件 中 。 


) 
) 
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在 咀 数 geoGrap() 中， 首先 为 Yahoo API 设 置 apistem， 然 后 创建 一 个 字典 。 你 可 以 为 字典 

设置 不 同 值 ， 包 括 flags = J， 以便 返 回 JSON 格 式 的 结果 人 @。( 不 用 担心 你 不 熟悉 JSON， 它 是 
种 用 于 序列 化 数组 和 字典 的 文件 格式 ， 本 书 不 会 看 到 任何 JSON。JSON 是 JavaScript Object 

Notation 的 缩写 ， 有 兴趣 的 谈 者 可 以 在 www.json.org 找 到 更 多 信息 。) 接 下 来 使 用 urllib 的 
urlencode () 图 数 将 创建 的 字典 转换 为 可 以 通过 URL 进 行 传递 的 字符 绅 格 式 。 最 后 ， 打 开 URL 
读 取 返 回 值 。 由 于 返回 值 是 JSON 格 式 的 ， 所 以 可 以 使 用 JSON 的 Python 模块 来 将 其 解码 为 一 个 字 
典 。 一旦 返回 了 解码 后 的 字典 ， 也 就 意味 着 你 成 功 地 对 一 个 地 址 进行 了 地 理 编码 。 

程序 清单 10-4 中 的 第 二 个 晒 数 是 massPlaceFindq() 。 该 图 数 打开 一 个 tab 分 隅 的 文本 文件 , 获取 
第 2 列 和 第 3 列 结果 。 这 些 值 被 输入 到 男 数 geoGrab () 中 ， 然 后 需要 检查 geoGrab () 的 输出 字典 判断 
有 没有 错误 。 如 采 没 有 钳 误 ， 就 可 以 从 字典 中 旋 取 经 纬度 。 这 些 值 被 添加 到 原来 对 应 的 行 上 ， 同 时 
写 到 一 个 新 的 文件 中 。 如 有 果 有 和 错误， 就 不 需要 去 抽取 纬度 和 经 度 。 最 后 ， 调 用 sleep () 函数 将 
massPlaceFind() 国 数 延 迟 1 秒 。 这 样 做 是 为 了 确保 不 要 在 短 时 间 内 过 于 频 凤 地 调用 API。 如 采 频 权 
调用 ， 那 么 你 的 请 求 可 能 会 被 封 掉 ， 所 以 将 massPlaceFina() 困 数 的 调用 延迟 一 下 比较 好 。 

保存 kMeans.py 文 件 后 ， 在 Python 提示 符 下 输入 : 


>>> reload (kMeans) 
<module 'kMeans' from 'kMeans .py'> 


尝试 geoGrab， 输 入 街道 地 址 和 城市 的 字符 串 ， 比 如 : 


>>> geoResults=kMeans .geoGrab('1 VA Center', 'Augusta, ME') 
http://where.yahooapis.com/ 
geocode?flags=J&location=1l+VA+Center+Augusta%2C+ME&appid=pppP68N6k 


实际 使 用 的 URL 会 被 打印 出 来 , 通过 这 些 URL, 用 户 可 以 看 到 具体 发 生 了 什么 。 如 果 并 不 想 


看 到 URL， 那 么 将 程序 清单 10-4 中 的 print 语 名 注释 掉 也 没关系 。 下 面 看 一 下 返回 结 有 末 ， 应 该 是 





















































一 个 很 大 的 字典 。 
>>> geoResults 
{u'ResultSet': {u'Locale': u'us US', u'ErrorMessage': u'No error', 
u'Results': [{u'neighborhood': u'', u'house': u'll', u'county': u'Kennebec 
County', u'street': u'Center St', u'radius': 500, u'gquality': 85, u'unit': 
Uu'', u'city': u'Augusta', u'countrycode': u'US', u'woeid': 12759521， 
u'xstreet': u'', u'line4': u'United States', u'lline3': u'', u'line2': 


u'Augusta, ME 04330-6410', u'linel': u'll Center St', u'state': u'Maine', 
u'latitude': u'44.307661', u'hash': u'B8BE9FSEE764C449', u'unittype': u'', 
u'offsetlat': u'44.307656', u'statecode': u'ME', u'postal': u'04330-6410', 
u'name': u'', u'uzZip': u'04330', u'country': u'United States', 
u'longitude': u'-69.776608', u'Ccountycode': u'', u'offsetlon': u'- 
69.776528',Uu'Wwoetype': Th u'version': u'll.0', u'Error': 0, u'Found': 1, 
u'Quality': 87}} 


上 面 给 出 的 是 -部 只 包含 键 Resul ESEt 的 字典 ， 该 字典 又 包含 分 别 LLocale、 Error- 
Message、 Results、 version、 Error.、 Found 和 Quality 为 刍 的 其 他 字典 。 

读者 可 以 看 一 下 所 有 这 些 键 的 内 容 ， 不 过 我 们 主要 感 兴趣 的 还 是 Error 和 Results。 

Error 键 值 给 出 的 是 错误 编码 。0 意 味 春 没 有 错误 ， 其 他 任何 值 都 代表 没有 获得 要 找 的 地 址 。 
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可 以 输入 下 面 内 容 以 获得 错误 编码 : 





>>> geoResults['ResultSet'] ['Error'] 

0 

现在 看 一 下 纬度 和 经 度 ， 可 以 输入 如 下 命令 来 实现 : 

>>> geoResults['ResultSet'] ['Results'] [oj [LIongituae j 
UI-69.776608: 

>>> geoResults['ResultSet'] ['Results'] [oj ['latitude'l] 


U'44.307661' 
上 面 给 出 的 都 是 字符 串 , 可 以 使 用 float () 图 数 将 它们 转换 为 浮 点 数 。 下 面 看 看 在 多 行 上 的 
运行 效 末 ， 输 入 命令 执行 程序 清单 10-4 中 的 第 二 个 函数 : 


>>> kMeans .massplaceFind('portlandClubs.txt') 








Dolphin II 45.486502 -122.788346 
Magic Garden 45.524692 -122.674466 
Mary's Club 45.535101 -122.667390 
Montego's 45.504448 -122.500034 


这 会 在 你 的 工作 目录 下 生成 一 个 称 为 places.txt 的 文本 文件 。 接 下 来 将 使 用 这 些 点 进行 聚 类 ， 
并 将 俱乐部 以 及 它们 的 禾 中 心 画 在 城市 地 图 上 。 


10.4.2 ”对 地 理 坐 标 进行 聚 类 


现在 我 们 有 一 个 包含 格式 化 地 理 坐 标的 列表 , 接 下 来 可 以 对 这 些 俱乐部 进行 聚 类 。 在 此 过 程 
中 使 用 Yahoo! PlaceFinder API 来 获得 每 个 点 的 纬度 和 经 度 。 下 面 需 要 使 用 这 些 信息 来 计算 数据 点 
与 禾 质 心 的 距离 。 

这 个 例子 中 要 聚 类 的 俱乐部 给 出 的 信息 为 经 度 和 维度 , 但 这 些 信息 对 于 距离 计算 还 不 够 。 在 
北极 附近 每 走 几 米 的 经 度 变 化 可 能 达到 数 10 度 ; 而 在 汞 着 附近 走 相 同 的 距离 ,市 来 的 经 度 变 化 可 
能 只 是 零点 几 。 可 以 使 用 球面 余弦 定理 来 计算 两 个 经 纬度 之 间 的 距离 。 为 实现 距离 计算 并 将 聚 类 
后 的 俱乐部 标识 在 地 图 上 ， 打 开 kKMeans.py 文 件 ， 添 加 下 面 程序 清单 中 的 代码 。 


程序 清单 10-5 ”球面 距离 计算 及 艇 绘图 函数 
def distSLC(vecA, vecB): 
a = sin(vecA[0,1]*pi/180) * sin(vecB[0,1]*pi/180) 
b = cos(vecA[o0,1]*pi/180) * cos (vecB[0,1]*pi/180) * \ 
cos (pi * (vecB[0,0] -vecA[0,0]) /180) 
return arccos (a + b)*6371.0 



































import matplotlib 
import matplotlib.pyplot as plt 
def clusterClubs (numClust=5): 
datList = [] 
for line in open('places.txt') .readlines (): 
lineArr = line.split('\t') 
datList.append([float (lineArr[4]), float (lineArr[3])]) 
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datMat = mat (datList) 

myCentroids, clustAssing = bikmeans (datMat, numClust, \ 
distMeas=distSLC) 

fig = plt.figure() 

rect=[0.1,0.1,0.8,0.8] 


scatterMarkers=['s', 'O', 1 人 1 8 B's \ 
di Ty Th TS | 
axprops = dict (xticks=[], yticks=|[]) 
ax0=fig.add axes (rect, label='ax0', **axprops) -9 基于 图 像 创 建 德 阵 
ImgP = plt.imread('Portland.png') 


ax0 .imshow (imgP) 


axl=fig.add axes (rect, label='axl', frameon=False) 

for i in range (numClust): 
ptsInCurrCluster = datMat [nonzero(clustAssing[:,0] .A==i) [0],:] 
markerStyle = scatterMarkers[i % len(scatterMarkers)l] 


axl.scatter (ptsInCurrCluster[:,0] .flatten().A[O0],\ 
ptsInCurrCluster[:,1] .flatten().A[0],\ 
marker=markerSstyle, s=90) 
axl.scatter (myCentroids[:,0] .flatten().AI[O0],\ 
myCentroids[:,1] .flatten() .A[0], marker='+', S8=300) 
plt.show() 


上 述 程 序 清单 包含 两 个 函数 ,第 一 个 函数 distsLc() 返 回 地 球 表 面 两 点 之 间 的 距离 。 第 二 个 
负数 clusterCclubs () 将 文本 文件 中 的 俱乐部 进行 聚 类 并 画 出 结果 。 

国 数 aistSsLc() 返 回 地 球 表面 两 点 间 的 距离 , 单位 是 英里 。 给 定 两 个 点 的 经 纬度 , 可 以 使 用 
球面 余弦 定理 来 计算 两 点 的 距离 。 这 里 的 纬度 和 经 度 用 角度 作为 单位 ， 但 是 sin() 以 及 cos () 以 
弧度 为 输入 。 可 以 将 角度 除 以 180 然 后 再 乘 以 圆周 率 pi 转 换 为 弧度 。 导 入 NumPy 的 时 候 就 会 导 
人 pi。 

第 二 个 靖 数 clusterclubs () 只 有 一 个 参数 ， 即 所 希望 得 到 的 秘 数 目 。 该 限 数 将 文本 文件 的 
解析 、 肾 类 以 及 画图 都 封装 在 一 起 ， 首 先 创 建 一 个 空 列表 ， 人 然后 打开 places.txt 文 件 获 取 第 4 列 和 
第 5 列 ， 这 两 列 分 别 对 应 纬度 和 经 度 。 基 于 这 些 经 纬度 对 的 列表 创建 一 个 矩阵 。 接 下 来 在 这 些 数 
据点 上 运行 biKmeans () 并 使 用 aistsLc () 因数 作为 聚 类 中 使 用 的 距离 计算 方法 。 最 后 将 复 以 及 
族 质心 画 在 图 上 。 

为 了 夯 出 这 些 徐 ， 首 先 创 建 一 幅 图 和 一 个 矩形 ， 然 后 使 用 该 窍 形 来 决定 绘制 图 的 哪 一 部 分 。 
接 下 来 构建 一 个 标记 形状 的 列表 用 于 绘制 散 点 图 。 后 边 会 使 用 唯一 的 标记 来 标识 每 个 禾 。 下 一 步 
使 用 imread () 函数 基于 一 幅 图 像 来 创建 算 阵 全, 然后 使 用 imshow () 绘制 该 矩阵 。 接 下 来 , 在 同 
一 幅 图 上 绘制 一 张 新 的 图 , 这 人 允许 你 使 用 两 套 坐 标 系统 并 且 不 做 任何 缩放 或 偶 移 。 紧 接着 ,过 历 
每 一 个 族 并 将 它们 一 一 画 出 来 。 标记 类 型 从 前 面 创建 的 scatterMarkers 列 表 中 得 到 。 使 用 索引 
i % len(scatterMarkers) 来 选择 标记 形状 ， 这 意味 着 当 有 更 多 篮 时 ， 可 以 循环 使 用 这 些 标 
记 。 最 后 使 用 十 字 标 记 来 表示 得 中 心 并 在 图 中 显示 。 

下 面 看 一 下 实际 效果 ， 保 存 kMeans.py 并 在 Python 提示 符 下 输入 如 下 命令 : 
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>>> reload (kMeans) 

<module 'kMeans' from 'kMeans .py'> 

>>> kMeans.clusterClubs (5) 

sseSplit, and notSplit: 3073.83037149 0.0 
the bestCentToSplit is: 0 


sseSplit, and notSplit: 307.687209245 1118.08909015 
the bestCentToSplit is: 3 
the len of bestClustAss is: 25 


执行 上 面 的 命令 后 ， 会 看 到 与 图 10-4 类 似 的 一 个 图 。 
45.65 r- 
45.60 - 
i 
45.50 - 


45.45 - 


45.40 - 
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图 10-4 对 俄 勒 闪 州 波 特 兰 市 夜生活 娱乐 地 点 的 聚 类 结 采 
可 以 符 试 输入 不 同 复数 目 得 到 程序 运行 的 效 末 。 什 么 数目 比较 好 呢 ? 读者 可 以 思考 一 下 这 


个 问题 。 





10.5 ”本 章 小 结 


聚 类 是 一 种 无 监督 的 学 习 方 法 。 所谓 无 监督 学 习 足 指 事先 并 不 知道 要 寻找 的 内 容 , 即 没 有 日 
标 变 量 。 珍 类 将 数据 点 归 到 多 个 族 中 ， 其 中 相似 数据 点 处 于 同一 族 ， 而 不 相似 数据 点 处 于 不 同 入 
中 。 聚 类 中 可 以 使 用 多 种 不 同 的 方法 来 计算 相似 度 。 

一 种 广泛 使 用 的 聚 类 算法 是 K- 均 值 算法 ， 其 中 古 用 户 指定 的 要 创建 的 复 的 数目 。K- 均 值 聚 
类 算法 以 k 个 随机 质心 开始 。 算 法 会 计算 每 个 点 到 质心 的 距离 。 每 个 点 会 被 分 配 到 距 其 最 近 的 簇 
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质心 ， 然 后 紧 接着 基于 新 分 配 到 禾 的 点 更 新 禾 质 心 。 以 上 过 程 重 复数 次 ， 直 到 复 质 心 不 再 改变 。 
这 个 简单 的 算法 非常 有 效 但 是 也 容易 有 党 到 初始 复 质 心 的 影响 。 为 了 获得 更 好 的 聚 类 效果 , 可 以 使 
用 另 一 种 称 为 二 分 K- 均 值 的 聚 类 算法 。 二 分 区- 均 值 算 法 首先 将 所 有 点 作为 一 个 禾 ， 然 后 使 用 K- 
均值 算法 (k= 2 ) 对 其 划分 。 下 一 次 欠 代 时 ， 选 择 有 最 大 误差 的 族 进 行 划 分 。 该 过 程 重 复 百 到 K 
个 复 创 建成 功 为 止 。 二 分 K- 均 值 的 聚 类 效果 要 好 于 K- 均 人 算法 。 

K- 均 值 算法 以 及 变形 的 K- 均 值 算 法 并 非 仅 有 的 聚 类 算法 , 妃 外 称 为 层次 聚 类 的 方法 也 被 广泛 
使 用 。 下 一 前 将 介绍 在 数据 集中 查找 关联 规则 的 Apriori 算 法 。 
































使 用 Apriori 算 法 进行 关联 
分 析 





本 章 内 容 

口 Apriori 算 法 

口 频繁 项 集 生成 

口 关联 规则 生成 

口 投票 中 的 关联 规则 发 现 








在 去 杂货 店 闫 东西 的 过 程 ， 实 际 包 含 了 许多 机 各 学 习 的 当前 及 未 来 应 用 ， 这 包括 物品 的 
展示 方式 、 购 物 之 后 优惠 券 的 提供 以 及 用 户 忠 诚 度 计 划 ， 等 等 。 它 们 都 离 不 开 对 大 量 数据 的 
分 析 。 商 店 希 望 从 顾客 时 上 获得 尽 可 能 多 的 利润 ， 所 以 他 们 必然 会 利用 各 种 技术 来 达到 这 一 
目的 。 

忠诚 度 计划 是 指 顾客 使 用 会 员 卡 可 以 获得 一 定 的 折扣 , 利用 这 种 计划 ,商店 可 以 了 解 顾客 所 
购买 的 商品 。 即 使 顾客 不 使 用 会 员 卡 ， 商 店 也 会 查看 顾客 购买 商品 所 使 用 的 信用 卡 记 录 。 如 果 顾 
客 不 使 用 信用 卡 而 使 用 现金 付 账 , 商店 则 可 以 查看 顾客 一 起 购买 的 商品 (如 有 果 想 知道 商店 所 使 用 
的 更 多 技术 ， 请 参考 Stephen Baker 写 的 The Numerati 一 书 )。 

通过 查看 哪些 商品 经 浓 在 一 起 购买 , 可 以 帮助 商店 了 解 用 户 的 购买 行为 。 这 种 从 数据 海 详 中 
抽取 的 知识 可 以 用 于 商品 定价 、 市 场 促 销 、 存 赁 管理 等 环节 。 从 大 规模 数据 集中 寻找 物品 间 的 隐 
含 关 系 被 称 作 关联 分 析 (association analysis ) 或 者 关联 规则 学 习 (association rule learning )。 这 
里 的 主要 问题 在 于 ,寻找 物品 的 不 同 组 合 是 一 项 十 分 耗 时 的 任务 ， 所 知 的 计算 代价 很 高 ， 蛋 力 搜 
索 方法 并 不 能 解决 这 个 问题 所 以 需要 用 更 智能 的 方法 在 合理 的 时 间 范 围 内 找到 频 党 项 集 。 本 和 草 
将 介绍 如 何 使 用 Apriori 算 法 来 解决 上 述 问题 。 

下 面 首 先 详 细 讨论 关联 分 析 ， 然 后 讨论 Apriori 原 理 ，Apriori 算 法 正 是 基于 该 原理 得 到 的 。 接 
下 来 创建 函数 频繁 项 集 高 效 发 现 的 函数 , 然后 从 频繁 项 集中 抽取 出 关联 规则 。 本 章 最 后 给 出 两 个 
例子 ， 一 个 是 从 国会 投票 记录 中 抽取 出 关联 规则 ， 另 一 个 是 发 现 毒 蘑 姑 的 共同 特征 。 
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11.1 关联 分 析 


Apriori 算 法 
优点 : 易 编 码 实 现 。 
缺点 : 在 大 数据 集 上 可 能 较 慢 。 
适用 数据 类 型 : 数值 型 或 者 标 称 型 数据 。 











关联 分 析 是 一 种 在 大 规模 数据 集中 寻找 有 趣 关 系 的 任务 。 这 些 关 系 可 以 有 两 种 形式 : 频繁 项 
集 或 者 关联 规则 。 频 繁 项 集 ( frequent item sets ) 是 经 稼 出 现在 一 块 的 物品 的 集合 ， 关 联 规则 
( association rules ) 上 暗示 两 种 物品 之 间 可 能 存在 很 强 的 关系 .下面 会 用 一 个 例子 来 说 明 这 两 种 概念 。 
图 11-1 给 出 了 某 个 淋 货 店 的 交易 清单 。 








交易 





商 蕊 ， 尿 布 ， 菠 萄 酒 ， 甜 菜 
豆奶 ， 尿 布 ， 葡 萄 酒 ， 检 汗 
商工 ， 豆 奶 ， 尿 布 ， 征 铭 酒 
次 蕊 ， 豆 奶 ， 尿 布 ， 橙 计 


图 11-1 一 个 来 自 Hole Foods 天 然 食品 店 的 简单 交易 清单 


频繁 项 集 是 指 那 些 经 党 出 现在 一 起 的 物品 集合 ， 图 11-1 中 的 集合 { 秆 萄 酒 ， 尿 布 ,豆奶 } 就 古 频 
党项 集 的 一 个 例子 ( 回想 一 下 ， 集合 是 由 一 对 大 括号 “{ }” 来 表示 的 )。 从 下 面 的 数据 集中 也 可 
以 找到 诸如 尿布 = 葡 衔 酒 的 关联 规则 。 这 童 味 着 如 果 有 人 天 了 尿布 , 那么 他 很 可 能 也 会 天 葡萄 酒 。 
使 用 频 楷 项 集 和 关联 规则 ， 商 家 可 以 更 好 地 理解 他 们 的 顾客 。 尽 管 大 部 分 关联 规则 分 析 的 实例 来 
日 去 售 业 ， 但 该 技术 同样 可 以 用 于 其 他 行业 ， 比 如 网 站 流量 分 析 以 及 医药 行业 。 























尿布 与 啤酒 ? 
关联 分 析 中 最 有 名 的 例子 是 “尿布 与 啤酒 ”。 据 报道 ， 美 国 中 西部 的 一 家 连锁 店 发 现 ， 男 
人 们 会 在 周 四 购买 尿布 和 啤酒 。 这 样 商店 实际 上 可 以 将 尿布 与 啤酒 放 在 一 块 ,， 并 确保 在 周 四 全 
价 销售 从 而 获 利 。 当 然 ， 这 家 商店 并 没有 这 么 做 。 


* DSS News, “Ask Dan! What is the true story about data mining, beer and diapers?” http://Wwww.dssresources.com/ 


newsletters/66.php, retrieved March 28, 2011. 





应 该 如 何 定 义 这 些 有 趣 的 关系 ? 谁 来 定义 什么 是 有 趣 ? 当 寻找 频繁 项 集 时 ,频繁 ( frequent ) 
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的 定义 是 什么 ”有 许多 概念 可 以 解答 上 述 问 题 ， 不 过 其 中 最 重要 的 是 文 持 度 和 可 信和 度 。 

一 个 项 集 的 文 持 度 〈support ) 被 定义 为 数据 集中 包含 该 项 集 的 记录 所 占 的 比例 。 从 图 11-1 中 
可 以 得 到 ，{ 豆 奶 } 的 支持 度 为 4/5。 而 在 5 条 交易 记录 中 有 3 条 包含 {豆奶 ， 尿 布 }， 因 此 {豆奶 ， 尿 
布 } 的 支持 度 为 3/5。 支 持 度 是 针对 项 集 来 说 的 ， 因 此 可 以 定义 一 个 最 小 支持 度 ， 而 只 保留 满足 最 
小 支持 度 的 项 集 。 

可 信和 度 或 置信 和 度 ( confidence ) 是 针对 一 条 诸如 {尿布 } 一 { 和 葡萄 酒 } 的 关联 规则 来 定义 的 。 这 
条 规则 的 可 信和 度 被 定义 为 “支持 度 ({ 尿 布 , 葡萄 酒 ?)/ 支 持 度 ({ 尿 布 凡 )”。 从 图 11-1 中 可 以 看 到 ， 由 
于 { 尿 布 ,葡萄酒 } 的 文 持 度 为 3/$, 尿布 的 支持 度 为 44$, 所 以 "尿布 一 简 萄 酒 ” 的 可 信和 度 为 3/4=0.75。 
这 意味 着 对 于 包含 “尿布 ”的 所 有 记录 ， 我 们 的 规则 对 其 中 75% 的 记录 都 适用 。 

支持 度 和 可 信和 度 是 用 来 量化 关联 分 析 是 否 成 功 的 方法 。 假 设想 找到 支持 度 大 于 0.8 的 所 有 项 
集 , 应 该 如 何 去 做 ?” 一 个 办 法 是 生成 一 个 物品 所 有 可 能 组 合 的 清单 ,然后 对 每 一 种 组 合 统计 它 出 
现 的 频繁 程度 , 但 当 物 品 成 千 上 万 时 ， 上 述 做 法 非常 非常 慢 。 下 一 节 会 详细 分 析 这 种 情况 并 讨论 
Apriori 原 理 ， 该 原理 会 减少 关联 规则 学 习 时 所 需 的 计算 量 。 












































11.2 Apriori 原理 


假设 我 们 在 经 营 一 家 商品 种 类 并 不 多 的 杂货 后 ,我们 对 那些 经 稼 在 一 起 和 被 购买 的 商品 非常 感 兴 
趣 。 我 们 只 有 4 种 商品 : 商品 0， 商 品 1， 商 品 2 和 商品 3。 那 么 所 有 可 能 被 一 起 购买 的 商品 组 合 都 有 
哪些 ?这 些 商品 组 合 可 能 只 有 一 种 商品 ， 比 如 商品 9， 也 可 能 包括 两 种 、 三 种 或 者 所 有 四 种 商品 。 
我 们 并 不 关心 某 人 买 了 两 件 商品 0 以 及 四 件 商 品 2 的 情况 ， 我 们 只 关心 他 购买 了 一 种 或 多 种 商品 。 














Apriori 算 法 的 一 般 过 程 
(1) 收集 数据 : 使 用 任意 方法 。 
(2) 准备 数据 : 任何 数据 类 型 都 可 以 ， 因 为 我 们 只 保存 集合 。 
(3) 分 析 数 据 : 使 用 任意 方法 。 
(4) 训练 算法 : 使 用 Apriori 算 法 来 找到 频繁 项 集 。 
(5) 测试 算法 : 不 需要 测试 过 程 。 
(6) 使 用 算法 : 用 于 发 现 频 繁 项 集 以 及 物品 之 间 的 关联 规则 。 





图 11-2 显 示 了 物品 之 间 所 有 可 能 的 组 合 。 为 了 让 该 图 更 容易 民 ， 图 中 使 用 物品 的 编号 0 来 取 
代 物 品 0 本 里。 为 外 ， 图 中 从 上 往 下 的 第 一 个 集合 是 名 ， 表 示 空 集 或 不 包含 任何 物品 的 集合 。 物 
品 集合 之 间 的 连 线 表明 两 个 或 者 更 多 集合 可 以 组 合 形 成 一 个 更 大 的 集合 。 

前 面 阅 过 ， 我 们 的 目标 是 找到 经 凋 在 一 起 购 灭 的 物品 集合 。 而 在 11.17P 中 ， 我 们 使 用 集合 的 
文 持 度 来 度量 其 出 现 的 频率 。 一 个 集合 的 文 持 度 是 指 有 多 少 比 例 的 交易 记录 包含 该 集合 。 如 何 对 
一 个 给 定 的 集合 ， 比 如 {0,3}， 来 计算 其 支持 度 ? 我 们 遍历 每 条 记录 并 检查 该 记录 包含 0 和 3， 如 
末 记 录 确 实 同时 包含 这 两 项 , 那么 就 增加 总 计数 值 。 在 扫描 完 所 有 效 据 之 后 ,使 用 统计 得 到 的 总 
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数 除 以 总 的 交易 记录 数 ， 就 可 以 得 到 支持 度 。 上 述 过 程 和 结果 只 是 针对 单个 集合 {0,3}。 要 获得 
每 种 可 能 集合 的 支持 度 就 需要 多 次 重复 上 述 过 程 。 我 们 可 以 数 一 下 图 11-2 中 的 集合 数 日 ， 会 发 现 
即使 对 于 仅 有 4 种 物品 的 集合 ， 也 需要 遍历 数据 1$ 次 。 而 随 着 物品 数目 的 增加 遍历 次 数 会 急剧 增 
长 。 对 于 包含 NM 种 物品 的 数据 集 共 有 2-1 种 项 集 组 合 。 事 实 上， 出 售 10 000 或 更 多 种 物品 的 商店 

并 不 少见 。 即 使 只 出 售 100 种 商品 的 商店 也 会 有 1.26 x 10? 种 可 能 的 项 集 组 合 。 对 于 现代 的 计算 机 
言 ， 需 要 很 长 的 时 间 才 能 完成 运算 。 











图 11-2 集合 {0，1，2，3} 中 所 有 可 能 的 项 集 组 合 


为 了 降低 所 需 的 计算 时 间 , 人 研究 人 员 发 现 一 种 所 请 的 Apriori 原 理 。Apriori 原 理 可 以 帮 我 们 减 
少 可 能 感 兴 趣 的 项 集 。Apriori 原 理 是 说 如 果菜 个 项 集 是 频繁 的 ， 那么 它 的 所 有 子 集 也 是 频繁 的 。 
对 于 图 11-2 给 出 的 例子 ,这 意味 着 如 采 {0,1} 是 频繁 的 ， 那么 {0}、 生 } 也 一 定 是 频繁 的 。 这 个 原理 
百 观 上 并 没有 什么 帮助 , 但 是 如 末 反 过 来 看 就 有 用 了 ,也 就 是 说 如 果 一 个 项 集 是 非 频 党 集 ， 那么 
它 的 所 有 超 集 也 是 非 频 楷 的 《如 图 11-3 所 示 )。 





Aprionl 
apriori 在 拉丁 语 中 指 “来 自 以 前 ”。 当 定义 问题 时 ， 通 常会 使 用 先 验 知 识 或 者 假设 ， 这 被 
称 作 “一 个 先 验 ”(apriori )。 在 贝 叶 斯 统计 中 ， 使 用 先 验 知 识 作 为 条 件 进行 推断 也 很 常见 。 先 
验 知识 可 能 来 自 领域 知识 、 先 前 的 一 些 测 量 结果 ， 等 等 。 





在 图 11-3 中 ,已 知 阴影 项 集 {2,3} 是 非 频 繁 的 。 利 用 这 个 知识 ， 我 们 就 知道 项 集 {0,2,3}， 
{1,2,3} 以 及 {0,1,2,3} 也 是 非 频 繁 的 。 这 也 就 是 说 ， 一旦 计算 出 了 {2,3} 的 支持 度 ， 知 道 它 是 非 
频繁 的 之 后 ， 就 不 需要 再 计算 10,2,3}、 行 ,2,31 和 1f0,1,2,3} 的 支持 度 ， 因 为 我 们 知道 这 些 集合 
不 会 满足 我 们 的 要 求 。 使 用 该 原理 就 可 以 避免 项 集 数 目的 指数 增长 ， 从 而 在 合理 时 间 内 计算 
出 频繁 项 集 。 
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非 频 芭 


图 11-3 ”图 中 给 出 了 所 有 可 能 的 项 集 ， 其 中 非 频繁 项 集 用 灰色 表示 。 由 于 集合 {2,3} 是 非 频 繁 的 ， 
因此 {0,2,3}、{,2,3} 和 {0,1,2,3} 也 是 非 频 繁 的 ， 它 们 的 支持 度 根 本 不 需要 计算 


下 一 节 将 介绍 基于 Apriori 原 理 的 Apriori 算 法 ， 并 使 用 Python 来 实现 ， 人 然后 将 其 应 用 于 虚拟 商 
店 Hole Foods 的 数据 集 上 。 


11.3 ”使 用 Apriori 算法 来 发 现 频繁 集 


11.1 市 提 到 ， 关 联 分 析 的 目标 包括 两 项 : 发 现 频繁 项 集 和 发 现 关 联 规则 。 首 先 需 要 找到 频繁 
项 集 ， 然 后 才能 获得 关联 规则 。 本 节 将 只 关注 于 发 现 频 繁 项 集 。 

Apriori 算 法 是 发 现 频繁 项 集 的 一 种 方法 。Apriori 算 法 的 两 个 输入 参数 分 别 是 最 小 支持 度 和 数 
据 集 。 该 算法 首先 会 生成 所 有 单个 物品 的 项 集 列 表 。 接 着 扫描 交易 记录 来 查看 哪些 项 集 满 足 最 小 
文 持 度 要 求 , 那些 不 满足 最 小 文 持 度 的 集合 会 被 去 掉 。 然 后 ， 对 一 下 来 的 集合 进行 组 合 以 生成 包 
含 两 个 元 素 的 项 集 。 接 下 来 ， 再 重新 扫描 交易 记录 ， 去 抒 不 满足 最 小 文 持 度 的 项 集 。 该 过 程 重 复 
进行 直到 所 有 项 集 都 被 去 掉 。 























11.3.1 生成 候选 项 集 


在 使 用 Python 来 对 整个 程序 编码 之 前 ,需要 创建 一 些 辅助 消 数 。 下 面 会 创建 一 个 用 于 构建 初 
始 集 合 的 函数 ,也 会 创建 一 个 通过 扫描 数据 集 以 寻找 交易 记录 子 集 的 函数 。 数据 集 扫描 的 伪 代 码 
大 致 如 下 : 
对 数据 集中 的 每 条 交易 记录 tran 
对 每 个 候选 项 集 can: 
检查 一 下 can 是 否 是 tran 的 子 集 : 
如 果 是 ， 则 增加 can 的 计数 值 
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对 每 个 候选 项 集 : 

如 果 其 支持 度 不 低 于 最 小 值 ， 则 保留 该 项 集 

返回 所 有 频繁 项 集 列表 

下 面 看 一 下 实际 的 运行 效果 ， 建 立 一 个 apriori.py 文 件 并 加 入 下 列 代 码 。 


程序 清单 11-1 Apriori 算 法 中 的 辅助 困 数 
def loadDataset ( ) : 
return [[1，3，4]，[2，3，5]，[1I，2，3，5]，[2，5j]] 





def createCl (dataSet): 
Cl = [【] 
for transaction in dataSet: 
for item in transaction: 
It not [item] in C1: 
Cl .append([item]) 


C1.sort() -9 对 C1 中 每 个 项 构建 


return map (frozenset, C1) 一 个 不 变 集合 


def scanD(D, Ck, minSupport): 
ssCnt = {} 
for tid in D: 
for can in Ck: 
if can.issubset (tid): 
if not ssCnt.has key(can): ssCnt [can]=1 
else: ssCnt[can|] += 1 


numItems = float (len (D)) 

retList = [] 

supportData = {} 

for key in ssCnt: 9 计算 所 有 项 集 的 支持 度 
support = ssCnt [key] /numItems 


if support >= minSupport: 
retList.insert (0,key) 
supportDatal[lkey] = support 
return retList, supportData 


上 述 程序 包含 三 个 函数 。 第 一 个 函数 loadqpataset () 创建 了 一 个 用 于 测试 的 简单 数据 集 ， 
另外 两 个 男 数 分 别 是 createc1() 和 scanD 1() 。 

不 言 月 名 ， 国 数 createcl () 将 构建 集合 c1。c1 是 大 小 为 1 的 所 有 候选 项 集 的 集合 。Apriori 
算法 首先 构建 集合 c1 ,然后 扫描 数据 集 来 判断 这 些 只 有 一 个 元 素 的 项 集 是 否 满足 最 小 支持 度 的 要 
求 。 那 些 满足 最 低 要 求 的 项 集 构成 集合 L1。 而 Ll 中 的 元 素 相互 组 合 构 成 c2，c2 再 进一步 过 滤 变 
为 1D2。 到 这 里 ， 我 想 谈 者 应 该 明日 了 该 算法 的 主要 思路 。 

因此 算法 需要 一 个 函数 createc1 () 来 构建 第 一 个 候选 项 集 的 列表 cl1。 由 于 算法 一 开始 是 从 输 
和 人 数据 中 提取 候选 项 集 列 表 , 所 以 这 里 需要 一 个 特殊 的 图 数 来 处 理 , 而 后 续 的 项 集 列表 则 是 按 一 定 
的 格式 存放 的 。 这 里 使 用 的 格式 就 是 Python 中 的 frozenset 类 型 。frozenset 是 指 被 “冰冻 ”的 集合 ,就 
是 说 它们 是 不 可 改变 的 ， 即 用 户 不 能 修改 它们 。 这 里 必须 要 使 用 frozenset 而 不 是 set 类 型 ， 因 为 之 后 
必须 要 将 这 些 集 合作 为 字典 键 值 使 用 ， 使 用 frozenset 可 以 实现 这 一 点 ， 而 set 却 做 不 到 。 

首先 创建 一 个 空 列表 c1, 它 用 来 存储 所 有 不 重复 的 项 值 。 接 下 来 遍历 数据 集中 的 所 有 交易 记 
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录 。 对 每 一 条 记录 ,遍历 记录 中 的 每 一 个 项 。 如 果 某 个 物品 项 没有 在 ci 中 出 现 ， 则 将 其 添加 到 
cl 中。 这 里 并 不 是 简单 地 添加 每 个 物品 项 ， 而 是 添加 只 包含 该 物品 项 的 一 个 列表 "。 这 样 做 的 目 
的 是 为 每 个 物品 项 构建 一 个 集合 。 因 为 在 Apriori 算 法 的 后 续 处 理 中 ， 需 要 做 集合 操作 。Python 不 
能 创建 只 有 一 个 整数 的 集合 ， 因 此 这 里 实现 必须 使 用 列表 (有 兴趣 的 读者 可 以 试 一 下 )。 这 就 是 
我 们 使 用 一 个 由 单 物品 列表 组 成 的 大 列表 的 原因 。 最 后 , 对 大 列表 进行 排序 并 将 其 中 的 每 个 单元 
素 列 表 映 射 到 frozenset () ， 最 后 返回 frozenset 的 列表 @。 

程序 清单 11-1 中 的 第 二 个 孔 数 是 scanD (), 它 有 三 个 参数 ,分别 是 数据 集 、 候 选项 集 列表 ck 
以 及 感 兴趣 项 集 的 最 小 支持 度 minsupport。 该 昭 数 用 于 从 cil 生成 L1。 男 外 ,该 限 数 会 返回 一 个 
包含 文 持 度 值 的 字典 以 备 后 用 。scanD() 图 数 首先 创建 一 个 空 字典 sscnt ， 然 后 这 历数 据 集 中 的 
所 有 交易 记录 以 及 c1 中 的 所 有 候选 集 。 如 果 c1 中 的 集合 是 记录 的 一 部 分 ， 那 么 增加 字典 中 对 应 
的 计数 值 。 这 里 字典 的 键 束 是 集合 。 当 扫 摘 完 数 据 集 中 的 所 有 项 以 及 所 有 候选 集 时 ， 束 需要 计算 
支持 度 。 不 满足 最 小 支持 度 要 求 的 集合 不 会 输出 。 函 数 也 会 先 构 建 一 个 空 列表 , 该 列表 包含 满足 
最 小 支持 度 要 求 的 集合 。 下 一 个 循环 遍历 字典 中 的 每 个 元 素 并 且 计 算 支 持 度 @。 如 果 支 持 度 满 足 
最 小 支持 度 要 求 ， 则 将 字典 元 素 添 加 到 retList 中 。 可 以 使 用 语句 retList. insert(0,key) 
在 列表 的 首部 插入 任意 新 的 集合 。 当 然 也 不 一 定 非 要 在 站 部 插入 , 这 只 是 为 了 让 列表 看 起 来 有 组 
织 。 辑 数 最 后 返回 最 频 党 项 集 的 文 持 度 supportData， 该 值 会 在 下 一 节 中 使 用 。 

下 面 看 看 实际 的 运行 效果 。 保 存 apriori.py 之 后 ， 在 Python 提示 符 下 输入 : 

>>> import apriori 
然后 导入 数据 集 : 

>>> dataSet=apriori.loadDataSset () 


>>> dataset 

[[1, 3, 4], [2, 3, 5], [1, 2, 3, 5], [2, 5]] 
之 后 构建 第 一 个 候选 项 集 集合 c1: 

>>> Cl=apriori.createCl1 (dataset) 

>>> C1 


[frozenset ([1]), frozenset ([2]), frozenset([3]), frozenset([4]), 
frozenset ([5])] 


可 以 看 到 ，c1 包 含 了 每 个 frozenset 中 的 单个 物品 项 。 下 面 构 建 集合 表示 的 数据 集 D。 


>>> D=map (set,dataset) 
>>> D 
[eet Clly Sy MBI) Sottl2y 3 Slyy Set (Ll: 2y Br Sli Se U2 D1 


有 了 集合 形式 的 数据 , 就 可 以 去 掉 那 些 不 满足 最 小 支持 度 的 项 集 。 对 上 面 这 个 例子 , 我 们 使 用 0.5 
作为 最 小 文 持 度 水 平 : 
>>> Ll1,suppData0=apriori.scanD(D, Cl1, 0.5) 


>>> L1 
[frozenset ([1]), frozenset ([3]), frozenset ([2]), frozenset ([5])] 




































































OD 也 就 是 说 ，C1 是 一 个 集合 的 集合 ， 如 {0},{1),{2},…}， 每 次 添加 的 都 是 单个 项 构成 的 集合 {0} 、{1}、{2}… 
一 一 译 者 注 
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上 述 4 个 项 集 构 成 了 L1 列 表 ， 该 列表 中 的 每 个 单 物 品 项 集 至 少 出 现在 50% 以 上 的 记录 中 。 由 
于 物品 4 并 没有 达到 最 小 支持 度 ， 所 以 没有 包含 在 L1 中 。 通 过 去 掉 这 件 物品 ,减少 了 查找 两 物品 
项 集 的 工作 量 。 





11.3.2 ”组 织 完 整 的 Apriori 算法 


整个 Apriori 算 法 的 伪 代 码 如 下 : 
当 集 合 中 项 的 个 数 大 于 0 时 
构建 一 个 [个 项 组 成 的 候选 项 集 的 列表 
检查 数据 以 确认 每 个 项 集 都 是 频繁 的 
保留 频繁 项 集 并 构建 三 1 项 组 成 的 候选 项 集 的 列表 


既然 可 以 过 滤 集 合 ,那么 就 能 够 构建 完整 的 Apriori 算 法 了 。 打 开 apriori.py 文 件 加 入 如 下 程序 
清单 中 的 代码 。 


程序 清单 11-2 Apriori 算 法 
def aprioriGen (Lk, k): #creates Ck 
retList = [] 
lenLk = len (Lk) 
for i in range (lenLk): 
for ] in range (i+l1, lenLk): 
Ll1 = list (LkEK[i])[:k-2]; L2 = list (Lk[j])[:k-2] 前 /一 2 个 项 相同 时 ， 
L1.sort(); L2.sort() 和 将 两 个 集合 合 3 
if Ll1==L2: 
retList.append (Lk[i] | Lk[j]) 
return retLigst 


def apriori (dataSet, minSupport = 0.5): 
C1 = createC1 (datasSet) 
D = map(set, dataSsSet) 
L1, supportData = scanD(D, C1, minSupport) 





L = [L1] 

k = 2 

while (len(L[k-2]) > 0): 
Ck = aprioriGen (L[k-2], k) 9 扫描 数据 集 ， 从 Ck 得 到 Lk 
Lk, supK = scanD(D, Ck, minSupport) 


supportData .update (supK) 
L.append (Lk) 
K += 1 

return L, supportData 


程序 清单 11-2 包 含 两 个 图 数 aprioriGen() 与 apriori()。 其 中 主轴 数 是 apriori() ， 它 会 
调用 aprioriGen () 来 创建 候选 项 集 ck。 

中 数 aprioriGen () 的 输入 参数 为 频繁 项 集 列表 Lk 与 项 集 元 素 个 数 k, 输出 为 ck。 举例 来 说 ， 
该 函数 以 {0}、 生 }、 纪 } 作 为 输入 ,会 生成 {0,1} 、{0,2} 以 及 {1,2}。 要 完成 这 一 点 ， 首 先 创建 一 个 
空 列 表 ， 然 后 计算 Lk 中 的 元 素数 日 。 接 下 来 ， 比 较 Lk 中 的 每 一 个 元 素 与 其 他 元 素 ， 这 可 以 通过 


小 
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两 个 for 循 环 来 实现 。 紧 接着 ， 取 列表 中 的 两 个 集合 进行 比较 。 如 果 这 两 个 集合 的 前 面 k-2 个 元 
素 都 相等 ， 那 么 就 将 这 两 个 集合 合成 一 个 大 小 为 k 的 集合 人 @。 这 里 使 用 集合 的 并 操作 来 完成 ， 在 
Python 中 对 应 操作 符 | 。 

上 面 的 k-2 有 点 让 人 疑惑 。 接 下 来 再 进一步 讨论 细 市 。 当 利用 {0}、{1}、 纪 } 构 建 {0,1}、{0,2})、 
{1,2} 时 ， 这 实际 上 是 将 单个 项 组 合 到 一 块 。 现 在 如 果 想 利用 {0,1}、 {0,2}、 行 ,2} 来 创建 三 元 素 
项 集 ， 应 该 怎么 做 ?如 果 将 每 两 个 集合 合并 ， 就 会 得 到 {0, 1,2}、{0, 1,2}、{0, 1,2}。 也 就 是 说 ， 
同样 的 结果 集合 会 重复 3 次 。 接 下 来 需要 扫描 三 元 素 项 集 列表 来 得 到 非 重 复 结果 ， 我 们 要 做 的 是 
确保 授 历 列表 的 次 数 最 少 。 现在， 如 果 比 较 集 合 {0,1} 、{0,2}、 生 2} 的 第 1 个 元 素 并 只 对 第 1 个 元 
素 相同 的 集合 求 并 操作 ， 又 会 得 到 什么 结果 ? {0, 1, 2;， 而 且 只 有 一 次 操作 ! 这 样 就 不 需要 遍历 
列表 来 寻找 非 重 复 值 。 

上 上 面 所 有 的 操作 都 被 封装 在 apriori () 子 数 中 。 给 该 函数 传递 一 个 数据 集 以 及 一 个 文 持 度 ， 
国 数 会 生成 候选 项 集 的 列表 ， 这 通过 首先 创建 c1 然 后 读 人 数据 集 将 其 转化 为 D ( 集合 列表 ) 来 完 
成 。 程 序 中 使 用 map 函 数 将 set () 映射 到 aataset 列 表 中 的 每 一 项 。 接 下 来 ， 使 用 程序 清单 11-1 
中 的 scanD () 图 数 来 创建 1L， 并 将 L1 放 入 列表 LDL 中 。L 会 包含 1、L2 、13...。 现 在 有 了 L1， 后 面 
会 继续 找 D2 ，L3.…， 这 可 以 通过 while 循 环 来 完成 , 它 创建 包含 更 大 项 集 的 更 大 列表 ， 直 到 下 一 
个 大 的 项 集 为 空 。 如 果 这 听 起 来 让 人 有 点 困惑 的 话 ， 那么 等 一 下 你 会 看 到 它 的 工作 流程 。 首 先 使 
用 aprioriGen () 来 创建 ck， 然 后 使 用 scanD () 基 于 ck 来 创建 Lk。ck 是 一 个 候选 项 集 列表 ， 然 
后 scanD() 会 遍历 ck， 丢 掉 不 满足 最 小 支持 度 要 求 的 项 集 @。Lk 列 表 被 添加 到 Li， 同时 增加 k 的 
值 ， 重 复 上 述 过 程 。 最 后 ， 当 Lk 为 空 时 ， 程 序 返 回 L 并 退出 。 

下 面 看 看 上 述 程序 的 执行 效果 。 保 存 apriori.py 文 件 后 ， 输 入 如 下 命令 : 


>>> reload (apriori) 







































































<module 'apriori' from 'apriori.pyc'> 
上 面 的 命令 创建 了 6 个 不 重复 的 两 元 素 集 合 ， 下 面 看 一 下 Apriori 算 法 : 


>>> L, suppData=apriori .apriori (dataSet) 





>>> 七 
[[frozenset ([1]), frozenset ([3]), frozenset ([2]), frozenset([5])], 
[frozenset ([1, 3]), frozenset ([2, 5]), frozenset ([2, 3]), frozenset ([3, 5])], 


[frozenset ([2, 3, 5])], []] 

1 包含 满足 最 小 文 持 度 为 0.5 的 频繁 项 集 列 表 ， 下 面 看 一 下 具体 值 : 
>>> LI[0] 
[frozenset ([1]), frozenset ([3]), frozenset ([2]), frozenset([5])] 
>>> LI[1] 
[frozenset ([1, 
frozenset ([3, 5 
>>> LI[2] 
[frozenset ([2, 3, 5])] 
>>> LI[3] 
[] 


每 个 项 集 都 是 在 函数 apriori () 中 调用 果 数 aprioricGen () 来 生成 的 。 下 面 看 一 下 aprioriGen () 
函数 的 工作 流程 : 


1, 3]), frozenset ([2, 5]), frozenset ([2，3])， 
] ) 
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>>> apriori.aprioriGen (L[0], 2) 
[frozenset ([1, 3]), frozenset ([1, 2]1), frozenset ([1, 5]), 
frozenset ([2, 3]), frozenset([3, 5]), frozenset([2, 5])] 


3 
这 里 的 6 个 集合 是 候选 项 集 ck 中 的 元 系 。 其 中 4 个 集合 在 L[1] 中 , 和 镜 下 2 个 集合 被 函数 scanD () 
过 滤 挥 。 
下 面 再 尝试 一 下 70% 的 支持 度 : 
>>> L,suppData=apriori.apriori (dataSet,minSupport=0.7) 


>>> 屿 
[ [frozenset ([3] ), frozenset ([2]), frozenset([5] )], [frozenset ([2, 5])], []] 


变量 suppData 是 一 个 字典 ， 它 包含 我 们 项 集 的 支持 上 度 值 。 现 在 暂时 不 考虑 这 些 值 ， 不 过 下 
一 廊 会 用 到 这 些 值 。 

现在 可 以 知 拓 哪些 项 出 现在 70% 以 上 的 记录 中 ,还 可 以 基于 这 些 信息 得 到 一 些 绪论。 我们 可 
以 像 许多 程序 一 样 利 用 数据 得 到 一 些 结论 ， 或 者 可 以 生成 i1£-then 形 式 的 关联 规则 来 理解 数据 。 
下 一 市 会 束 此 展开 讨论 。 


11.4 ”从 频繁 项 集中 挖掘 天 联 规 则 


11.2 节 曾经 提 到 ， 可 以 利用 关联 分 析 发 现 许 多 有 趣 的 内 容 。 人 们 最 党 寻找 的 两 个 目标 是 频繁 
项 集 与 关联 规则 。 上 一 节 介 绍 如 何 使 用 Apriori 算 法 来 发 现 频繁 项 集 ， 现 在 需要 解决 的 问题 是 如 何 
找 出 关联 规则 。 

要 找到 关联 规则 ,我们 首先 从 一 个 频繁 项 集 开 始 。 我 们 知道 集合 中 的 元 素 是 不 重复 的 ， 但 我 
们 想 知 道 基于 这 些 元 素 能 和 否 获 得 其 他 内 容 。 某 个 元 素 或 者 某 个 元 素 集合 可 能 会 推导 出 另 一 个 元 
系 。 从 杂货 店 的 例子 可 以 得 到 ， 如 果 有 一 个 频繁 项 集 { 豆 奶 , 巩 苞 }， 那 么 就 可 能 有 一 条 关联 规 
则 “豆奶 一 芮 音 ”。 这 意味 着 如 果 有 人 购买 了 豆奶 ,那么 在 统计 上 他 会 购买 黄 音 的 概率 较 大 。 
但 是 ,这 一 条 反 过 来 并 不 总 是 成 立 。 也 就 是 说 , 即使 “豆奶 一 芮 车 ”统计 上 显著 , 那么 “ 黄 芭 一 
豆奶 ” 也 不 一 定 成 立 。( 从 逻辑 研究 上 来 讲 ， 箭 头 左边 的 集合 称 作 前 件 ， 和 节 头 右边 的 集合 称 为 
后 件 。) 

11.3 节 给 出 了 频繁 项 集 的 量化 定义 ， 即 它 满足 最 小 文 持 度 要 求 。 对 于 关联 规则 ， 我 们 也 有 类 
似 的 量化 方法 ， 这 种 量化 指标 称 为 可 信和 度 。 一 条 规则 P 一 H 的 可 信和 度 定 义 为 support(P | 
H) /support (P) 。 记 住 , 在 Python 中 , 操作 符 | 表 示 集 合 的 并 操作 ,而 数学 上 集合 并 的 符号 是 U。 
P | H 是 指 所 有 出 现在 集合 P 或 者 集合 HE 中 的 元 素 。 前 面 一 节 已 经 计算 了 所 有 频 党 项 集 文 持 度 。 现 
在 想 获得 可 信和 度 ， 所 需要 做 的 只 是 取出 那些 文 持 度 值 做 一 次 除法 运算 。 

从 一 个 频繁 项 集中 可 以 产生 多 少 条 关联 规则 ? 图 11-4 的 网 格 图 给 出 的 是 从 项 集 {0,1,2,3} 产 生 
的 所 有 关联 规则 。 为 找到 感 兴 趣 的 规则 , 我 们 先生 成 一 个 可 能 的 规则 列表 ， 然 后 测试 每 条 规则 的 
可 信和 度 。 如 果 可 信和 度 不 满足 最 小 要 求 ， 则 去 抒 该 规则 。 
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图 11-4 ”对 于 频 索 项 集 {0,1,2,3} 的 关联 规则 网 格 示意 图 。 阴 影 区域 给 出 的 是 低 可 信和 度 的 规则 。 如 
果 发 现 0,1,2 一 3 是 一 条 低 可 信 度 规则 ， 那么 所 有 其 他 以 3 作为 后 件 的 规则 可 信 度 也 会 较 低 


类 似 于 上 一 节 的 频繁 项 集 生成 , 我 们 可 以 为 每 个 频繁 项 集 产生 许多 关联 规则 。 如 果 能 够 减少 
规则 数目 来 确保 问题 的 可 解 性 , 那么 计算 起 来 就 会 好 很 多 。 可 以 观察 到 ， 如 果菜 条 规则 并 不 满足 
最 小 可 信和 度 要 求 ， 那 么 该 规则 的 所 有 子 集 也 不 会 满足 最 小 可 信和 度 要 求 。 以 图 11-4 为 例 ， 假设 规则 
0,1,2 一 3 并 不 满足 最 小 可 信 度 要 求 , 那么 就 知道 任何 左 部 为 {0,1,2} 子 集 的 规则 也 不 会 满足 最 小 可 
信和 度 要 求 。 在 图 11-4 中 这 些 规则 上 都 加 了 阴影 来 表示 。 

可 以 利用 关联 规则 的 上 述 性 质 属性 来 减少 需要 测试 的 规则 数目 。 类 似 于 程序 清单 11-2 中 的 
Apriori 算 法 ,可 以 首先 从 一 个 频繁 项 集 开始 ， 接 着 创建 一 个 规则 列表 ， 其 中 规则 右 部 只 包含 一 个 
元 素 , 然后 对 这 些 规则 进行 测试 。 接 下 来 合并 所 有 剩余 规则 来 创建 一 个 新 的 规则 列表 ， 其 中 规则 
右 部 包含 两 个 元 素 。 这 种 方法 也 被 称 作 分 级 法 。 下 面 看 一 下 这 种 方法 的 实际 效果 ,打开 apriori.py 
文件 ， 加 入 下 面 的 代码 。 


程序 清单 11-3 ”关联 规则 生成 函数 
def generateRules(L, supportData, minConf=0.7): 
bigRuleList = [] -9 只 获取 有 两 个 或 更 多 元 素 的 集合 
for i in range (1l, len ( 工 ) ) : 
for fredqSet in LI[i]: 
Hl = [frozenset ([item]) for item in fregqSet] 
if (i > 1): 
rulesFromConseq (freqSet, Hi1i, supportData, bigRuleList,\ 
minConf) 





























else: 
calcConf (freqSet, Hi1i, supportData, bigRuleList, minConf) 
return bigRuleList 


def calcConf (fregqSet, H, supportData, brl, minConf=0.7): 
prunedH = [|] 
for conseq in H: 
conf = SupportData [fredqSet] /supportData [freqSet-conseq] 
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if conf >= minContf: 
print freqSet-conseq,'-->',Cconseqg, 'conf:',conf 
brl.append( (freqSet-conseq, conseqgq, conf)) 
prunedH.append (consegq) 
return prunedH 


def rulesFromConsegq (fregqSet, H, supportData, brl, minConf=0.7): 
m = len(H[0]) 9 尝试 进一步 合并 
if (len(freqSet) > (m + 1)): 
Hmpl = aprioriGen(H, m + 1) 
Hmpl = calcConf (freqSet, Hmpl, supportData, brl, minConf) 
if (len (Hmp1) > 1): 
rulesFromConseq (freqSet, Hmpl, supportData, brl, minConf) 


创建 Hm+1 条 新 候选 规则 

上 述 程序 中 包含 三 个 函数 。 第 一 个 也 数 generateRules () 是 主子 数 , 它 调 用 其 他 两 个 水 数 。 
其 他 两 个 函数 是 rulesFromCconseq() 和 calcCconf () 分 别 用 于 生成 候选 规则 集合 以 及 对 规则 
进行 评估 。 

国 数 generateRules () 有 3 个 参数 : 频繁 项 集 列表 、 包 含 那些 频繁 项 集 支 持 数据 的 字典 、 最 
小 可 信和 度 浆 值 。 郴 数 最 后 要 和 后 成 一 个 包含 可 信和 度 的 规则 列表 , 后 面 可 以 基于 可 信和 度 对 它们 进行 排 
序 。 这 些 规 则 存放 在 bigRuleList 中 。 如 果 事 先 没 有 给 定 最 小 可 信和 度 的 冰 值 ， 那 么 默认 值 设 为 
0.7。generateRules () 的 男 两 个 输入 参数 正好 是 程序 清单 11-2 中 函数 apriori () 的 输出 结果 。 
该 函数 遍历 i 中 的 每 一 个 频繁 项 集 并 对 每 个 频繁 项 集 创建 只 包含 单个 元 床 集 合 的 列表 H1。 因 为 无 
法 从 单元 素 项 集中 构建 关联 规则 ， 所 以 要 从 包含 两 个 或 者 更 多 元 素 的 项 集 开 始 规 则 构建 过 程 @， 
如 果 从 集合 {0,1,2} 开 始 , 那么 H1 应 该 是 [{0},{1},{2}]。 如 果 频 繁 项 集 的 元 素数 日 超过 2, 那么 会 考 
虑 对 它 做 进一步 的 合并 。 具 体 合并 可 以 通过 消 数 rulesFromConseq() 来 完成 ， 后面 会 详细 讨论 
合并 过 程 。 如 果 项 集中 只 有 两 个 元 素 ， 那 么 使 用 阴 数 calcconf () 来 计算 可 信和 度 值 。 

我 们 的 目标 是 计算 规则 的 可 信和 度 以 及 找到 满足 最 小 可 信和 度 要 求 的 规则 。 所 有 这 些 可 以 使 用 也 
数 calcconf () 来 完成 ， 而 程序 清单 11-3 中 的 其 余 代码 都 用 来 准备 规则 。 男 数 会 返回 一 个 满足 最 
小 可 信 度 要 求 的 规则 列表 ， 为 了 保存 这 些 规 则 ， 需 要 创建 一 个 空 列表 prunedqH。 接 下 来 ， 遍 历 H 
中 的 所 有 项 集 并 计算 它们 的 可 信和 度 值 。 可 信和 度 计算 时 使 用 supportData 中 的 文 持 度 数据 。 通 过 
导入 这 些 文 持 度 数据 ， 可 以 节省 大 量 计 算 时 间 。 如 果 某 条 规则 满足 最 小 可 信 度 值 , 那么 将 这 些 规 
则 输出 到 屏幕 显示 。 通过 检查 的 规则 也 会 被 返回 , 并 被 用 在 下 一 个 遇 数 rulesFromconsed() 中 。 
同时 也 需要 对 列表 br1 进 行 填充 ， 而 br1 是 前 面 通过 检查 的 bigRuleList。 

为 从 最 初 的 项 集中 生成 更 多 的 关联 规则 ， 可 以 使 用 rulesFromConseq() 子 数 。 该 限 数 有 2 
个 参数 : 一 个 是 频繁 项 集 ， 另 一 个 是 可 以 出 现在 规则 右 部 的 元 素 列 表 H。 函 数 先 计算 H 中 的 频繁 集 
大 小 m@。 接 下 来 查看 该 频繁 项 集 是 否 大 到 可 以 移 除 大 小 为 m 的 子 集 。 如 果 可 以 的 话 ， 则 将 其 移 
除 。 可 以 使 用 程序 清单 11-2 中 的 函数 aprioriGen () 来 生成 H 中 元 素 的 无 重复 组 合 合 ,该 结果 会 
存储 在 Hmpl 中 ， 这 也 是 下 一 次 迭代 的 H 列 表 。Hmp1li 包 含有 所 有 可 能 的 规则 。 可 以 利用 calcConf () 
来 测试 它们 的 可 信和 度 以 确定 规则 是 否 满 足 要 求 。 如 果 不 止 一 条 规则 满足 要 求 ， 那 么 使 用 Hmp1 和 迭 
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代 调 用 限 数 rulesFromConseq() 来 判断 是 否 可 以 进一步 组 合 这 些 规则 。 
下 面 看 一 下 实际 的 运行 效果 ， 你 存 apriori .py 文件 ， 在 Python 提 示 符 下 输入 : 


>>> reload (apriori) 

<module 'apriori' from 'apriori.py'> 

现在 生成 一 个 最 小 支持 度 是 0.5 的 频繁 项 集 的 集合 : 

>>> L,suppData=apriori.apriori (dataSet,minSupport=0.5) 
>>> rules=apriori .generateRules (L, suppData, minConf=0.7) 
>>> rules 





[(frozenset ([1]), frozenset ([3]), 1. (frozenset ([5] ), frozenset ([2]), 
1.0), (frozenset ([2]1), frozenset ( [5] ) ， .0)] 
frozenset ([1]) --> frozenset ([3]) conf: 1.0 
frozenset ([5]) --> frozenset([2]) conf: 1.0 
frozenset ([2]) --> frozenset([5]) conf: 1.0 





结果 中 给 出 三 条 规则 : { 人 一 B、 人 一 人 及 人 一 {5}。 可 以 看 到 ， 后 两 条 包含 2 和 5 的 规则 
可 以 互 换 前 件 和 后 件 ， 但 是 前 一 条 包含 1 和 3 的 规则 不 行 。 下 面 降低 可 信和 度 国 值 之 后 看 一 下 结 


>>> rules=apriori .generateRules (L, suppData, minConf=0.5) 
>>> rules 

[(frozenset ([3]), frozenset ([1]), 0.6666666666666666), (frozenset ([1]), 
frozenset([3]), 1.0), (frozenset ([5]), frozenset([2]), 1.0), 
(frozenset ([2]), frozenset([5]), 1.0), (frozenset ([3]), frozenset ( [2] ) ， 
0.6666666666666666), (frozenset ([2]), frozenset ([3]), 0.6666666666666666), 
(frozenset ([5]), frozenset([3]), 0.6666666666666666), (frozenset([3]), 
frozenset([5]), 0.6666666666666666), (frozenset([5]), frozenset ([2, 3]), 
0.6666666666666666)， (frozenset ([3]), frozenset ([2, 5]), 
0.6666666666666666)， (frozenset ([2]), frozenset ([3, 5]), 
0.6666666666666666)] 








frozenset ( [3]) --> frozenset ([1]) conf: 0.666666666667 
frozenset ([1]) --> frozenset([3]) conf: 1.0 

frozenset ([5]) --> frozenset([2]) conf: 1.0 

frozenset ([2]) --> frozenset([5]) conf: 1.0 

frozenset ([3]) --> frozenset ([2]) conf: 0.666666666667 
frozenset ([2]) --> frozenset([3]) conf: 0.666666666667 
frozenset ([5]) --> frozenset([3]) conf: 0.666666666667 
frozenset ([3]) --> frozenset([5]) conf: 0.666666666667 
frozenset([5]) --> frozenset([2, 3]) conf: 0.666666666667 
frozenset([3]) --> frozenset([2, 5]) conf: 0.666666666667 
frozenset ([2]) --> frozenset([3, 5]) conf: 0.666666666667 











- 旦 降低 可 信和 度 国 值 ， 就 可 以 获得 更 多 的 规则 。 到 现在 为 止 , 我 们 看 到 上 述 程 序 能 够 在 一 个 
小 数据 集 上 正 篆 运行 , 接 下 来 将 在 一 个 更 大 的 真实 数据 集 上 测试 一 下 效果 。 具 体 地 ,下 一 市 将 检 
碍 其 在 美国 国会 投票 记录 上 的 处 理 效 朱 。 


11.5 “示例 : 发现 国会 投票 中 的 模式 


前 面 我 们 已 经 发 现 频 索 项 集 及 关联 规则 , 现在 是 时 候 把 这 些 工具 用 在 真实 数据 上 了 。 那么 可 
的 购物 是 一 个 很 好 的 例子 , 但 是 前 面 已 经 用 过 了 。 为 一 个 例子 是 搜索 引擎 
中 的 查询 词 。 这 个 示例 听 上 去 不 钳 ， 不 过 下 面 看 到 的 是 一 个 更 有 趣 的 类 国 国会 议员 投票 的 例子 。 
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加 州 大 学 埃 文 分 校 的 机 带 学 习 数 据 集合 中 有 一 个 有 目 1984 年 起 的 国会 投票 记录 的 数据 集 : 
http://archive.ics.uci.edu/ml/datasets/Conegressional+Voting+Records。 这 个 数据 集 有 点 偏 旧 ， 而 且 其 
中 的 议题 对 我 来 讲 意义 也 不 大 。 我 们 想 尝试 一 些 更 新 的 数据 。 目 前 有 不 少 组 织 致 力 于 将 政府 数据 
公开 化 ， 其 中 的 一 个 组 织 是 智能 投票 工程 (Project Vote Smart， 网 址 : http:/www.votesmart.org )， 
它 提 供 了 一 个 公共 的 API。 下 面 会 看 到 如 何 从 Votesmart.org 获 取 数 据 ， 并 将 其 转化 为 用 于 生成 频 
繁 项 集 与 关联 规则 的 格式 。 该 数据 可 以 用 于 苋 选 的 目的 或 者 预测 政治 家 如 何 投票 。 





示例 : 在 美国 国会 投票 记录 中 发 现 关 联 规则 

(1) 收集 数据 : 使 用 votesmart 模 块 来 访问 投票 记录 。 

(2) 准备 数据 : 构造 一 个 函数 来 将 投票 转化 为 一 串 交 萄 记录 。 

(3) 分 析 数 据 : 在 Python 提示 符 下 查看 准备 的 数据 以 确保 其 正确 性 。 

(4) 训练 算法 : 使 用 本 章 早 先 的 apriori() 和 generateRules () 函数 来 发 现 投 票 记 录 中 
的 有 趣 信息 。 

(5) 测试 算法 : 不 适用 ， 即 没有 测试 过 程 。 

(6) 使 用 算法 : 这 里 只 是 出 于 娱乐 的 目的 ， 不 过 也 可 以 使 用 分 析 结 果 来 为 政治 竞选 活动 服 
务 ， 或 者 预测 选举 第 员 会 如 何 投 票 。 


接 下 来 ,我 们 将 处 理 投票 记 录 并 创建 一 个 交易 数据 库 。 这 需要 一 些 创造 性 思维 。 最 后 ,我 们 
会 使 用 本 半 早 和 完 的 代码 来 生成 频繁 项 集 和 关联 规则 的 列表 。 


11.5.1 ”收集 数据 : 构建 美国 国会 投票 记录 的 事务 数据 集 


智能 投票 工程 已 经 收集 了 大 量 的 政府 数据 ， 他 们 同时 提供 了 一 个 公开 的 API 来 访问 该 数据 
http://api.votesmart.org/docs/terms.html。 Sunlight 实验 室 写 过 一 个 Python 模块 用 于 访问 该 数据 ， 该 
模块 在 https://github.com/sunlightlabs/python-votesmatrt 中 有 很 多 可 供 参 考 的 文档 。 下 面 要 从 美 
会 获得 一 些 最 新 的 投票 记录 并 基于 这 些 数 据 来 尝试 学 习 一 些 关 联 规则 。 

我 们 希望 最 终 数 据 的 格式 与 图 11-1 中 的 数据 相同 ， 即 每 一 行 代表 美国 国会 的 一 个 成 员 , 而 每 列 
都 是 他 们 投票 的 对 象 。 接 下 来 从 国会 议员 最 近 投 票 的 内 容 开 始 。 如果 没有 安装 python-votesmart， 
或 者 没有 获得 API key， 那 么 需要 先 完 成 这 两 件 事 。 关 于 如 何 安装 python-votesmart 可 以 人 参考 
附录 A 。 

要 使 用 votesmartAPI， 需 要 导入 votesmart 模 块 : 

>>> from votesmart import votesmatt 


接 下 来 ， 输 入 你 的 API key 


>>> Votesmart .apikey = '49024thereoncewasamanfromnantucket94040' 

















Q 这 里 的 key 只 是 一 个 例子 。 你 需要 在 http://votesmart.org/share/api/register 申 请 自己 的 key。 
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现在 就 可 以 使 用 votesmartAPI 了 。 为 了 获得 最 近 的 100 条 议案 ， 输 入 : 
>>> bills = votesmart .votes.getBillsByStateRecent () 
为 了 看 看 每 条 议案 的 具体 内 容 ， 输 入 : 


>>> for bill in bills: 
print bill.title,bill.billIid 





Amending FAA Rulemaking Activities 13020 

Prohibiting Federal Funding of National Public Radio 12939 
Additional Continuing Appropriations 12888 

Removing Troops from Afghanistan 12940 


"Whistleblower Protection" i Offshore Oil Workers 11820 

读者 在 看 本 书 时 , 最 新 的 100 条 议案 内 容 将 会 有 所 改变 。 所 以 这 里 我 将 上 述 100 条 议案 的 标题 
及 ID 号 (billId ) 保存 为 recent100bills.txt 文 件 。 

可 以 通过 getBi11() 方 法 ， 获 得 每 条 议案 的 更 多 内 容 。 比 如 ， 对 刚才 的 最 后 一 条 议案 
“Whistleblower Protection”， 其 ID 号 为 11820。 下 面 看 看 实际 结 


>>> bill = votesmart.votes.getBill (11820) 

上 述 命 令 会 返回 一 个 BillDetail 对 和 象 ， 其 中 包含 大 量 完整 信息 。 我 们 可 以 查看 所 有 信息 ， 
不 过 这 里 我 们 所 感 兴趣 的 只 是 围绕 议案 的 所 有 行为 。 可 以 通过 输入 下 列 命令 来 查看 实际 结 

>>> bill.actions 

上 述 命令 会 返回 许多 行为 , 议案 包括 议案 被 提出 时 的 行为 以 及 议案 在 投票 时 的 行为 。 我 们 对 
投票 发 生 时 的 行为 感 兴趣 ， 可 以 输入 下 面 命令 来 获得 这 些 信 息 : 

>>> for action in bill.actions: 


if action.stage=='Passage': 
print action.actionId 


























34676 

上 述 信 息 并 不 完整 ,一 条 议 采 会 经 历 多 个 阶段 。 一 项 议 采 被 提出 之 后 , 经 由 美国 国会 和 众 议 
院 投 票 通过 后 ,才能 进入 行政 办 公 室 。 其 中 的 Passage (议案 通过 ) 阶段 可 能 存在 欺骗 性 ， 因 为 这 
有 可 能 是 行政 办 公 室 的 Passage 阶 段 ， 那 里 并 没有 任何 投票 。 

为 获得 某 条 特定 议案 的 投票 信息 ， 使 用 getBillActionVotes () 方 法 : 








>>> VoteList = votesmart .votes.getBillActionVotes (31670) 


其 中 ，voteList 是 一 个 包含 vote 对 象 的 列表 。 输 入 下 面 的 命令 来 看 一 下 里 面包 含 的 内 容 : 

>>> voteList [22] 

Vote({u'action': UINO Vote', u'candidateId': u'430', u'officeparties': 
u'Democratic', u'candidateName': u'Berry, Robert' }) 

>>> voteList [21] 


Vote({u'action': uUu'Yea', u'candidateld': u'26756', u'officeparties': 
u'Democratic', u'candidateName': u'Berman, Howard'}) 
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现在 为 止 ， 我 们 已 经 用 过 这 些 相 关 API， 可 以 将 它们 组 织 到 一 块 了 。 接 下 来 会 给 出 一 个 函数 
将 文本 文件 中 的 bil1Iq 转 化 为 actionIdq。 如 前 所 述 , 并 非 所 有 的 议案 都 被 投票 过 ， 另 外 可 能 
一 些 议案 在 多 处 进行 了 议案 投票 。 也 就 是 说 需要 对 actionId 进 行 过 滤 只 保留 包含 投票 数据 的 
actionId。 这 样 处 理 之 后 将 100 个 议案 过 小 到 只 和 猎 20 个 议案 , 这 些 剩 下 的 议案 都 是 我 认为 有 趣 的 
议案 ， 它 们 被 保存 在 文件 recent20bills.txt 中 。 下 面 给 出 一 个 getActionIgds() 图 数 来 处 理 
actionIds 的 过 滤 。 打 开 apriori.py 文 件 ， 输 入 下 面 的 代码 *。 


程序 清单 11-4 ”收集 美国 国会 议案 中 action ID 的 函数 


from time import sleep 

from votesmart import votesmart 

votesmart .apikey = '49024thereoncewasamanfromnantucket94040' 
def getActionIds(): 








actionIdList = []; billTitleList = [ 
fr = open('recent20bills.txt') 
for line in fr.readlines (): 
billNum = int (line.split('\t')10]) 
try: 
billDetail = votesmart .votes .getBill (billNum) 
for action in billDetail.actions: 


if action.level == 'House' and \ 过 滤 出 包含 投票 的 行为 
(action.stage == 'Passage' or \ 
action.stage == 'Amendment Vote'): 


actionId = int (action.actionId) 

print 'bill: %d has actionId: %d' % (billNum, actionId) 
actionIdList.append (actionId) 

billTitleList.append (line.strip() .split('\t')1[1]) 


except: 
print "problem getting bill %d" % billNum a 为 礼貌 访问 网 站 而 做 些 延 迟 
sleep (1) 


return actionIdList, billTitleList 

上 述 程序 中 导入 了 votesmart 模 块 并 通过 引入 sleep 困 数 来 延迟 APIT 周 用 。getActionsIds () 
限 数 会 返回 存储 在 recent20bills.txt 文 件 中 议案 的 actionId。 程 序 先 导入 API key， 然 后 创建 两 个 
空 列表 。 这 两 个 列表 分 别 用 来 返回 actionsId 和 标题 。 首 先 打 开 recent20bills.txt 文 件 ， 对 每 一 行内 不 
同 元 素 使 用 tab 进 行 分 隔 ， 之 后 进入 try-except 模 块 。 由 于 在 使 用 外 部 API 时 可 能 会 遇 到 错误 ， 
并 且 也 不 想 让 错误 占用 数据 获取 的 时 间 ， 上 述 try-except 模 块 调用 是 一 种 非常 可 行 的 做 法 。 所 
以 , 首先 尝试 使 用 getBil11(0) 方 法 来 获得 一 个 bi1L1Dpetail1 对 象 。 接 下 来 遍历 议案 中 的 所 有 行为 ， 
来 寻找 有 投票 数据 的 行为 @。 在 Passage 阶 段 与 Amendment Vote ( 修正 案 投 票 ) 阶段 都 会 有 投票 类 
据 ， 要 找 的 就 是 它们 。 现 在 , 在 行政 级 别 上 也 有 一 个 Passage 阶 段 , 但 那个 阶段 并 不 包含 任何 投票 
数据 ， 所 以 要 确保 这 个 阶段 是 发 生 在 众议院 @。 如 果 确 实 如 此 ， 程 序 就 会 将 actionId 打 印 出 来 
并 将 它 添加 到 actionIdqList 中 。 同 时 ， 也 会 将 议案 的 标题 添加 到 billTitleList 中 。 如 采 在 
API 调 用 时 发 生 错 误 ， 就 不 会 执行 actionIgdList 的 添加 操作 。 一旦 有 错误 就 会 执行 except 模 块 





























J 不 要 忘 了 使 用 你 自己 的 API key 来 代替 例子 中 的 key! 
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并 将 错误 信息 输出 。 最 后 , 程序 会 休 虐 1 秒 钟 ， 以 避免 对 Votesmart.org 网 站 的 过 度 频 繁 访问 。 程序 
运行 结束 时 actionIdList 与 bil1l1TitleList 会 被 返回 用 于 进一步 的 人 处理 。 
下 面 看 一 下 实际 运行 效果 。 将 程序 清单 11-4 中 的 代码 加 入 到 apriori.py 文 件 后 , 输入 如 下 命令 : 
>>> reload (apriori) 
<module '‘'apriori' from 'apriori.py'> 
>>> actionIdList,billTitles = apriori.getActionIds () 
bill: 12939 has actionId: 34089 


bill: 12940 has actionId: 34091 
bill: 12988 has actionId: 34229 





可 以 看 到 actionId 显 示 了 出 来 ， 它 同时 也 被 添加 到 actionIgList 中 输出 ， 以 后 我 们 可 以 使 
用 这 些 actionId 了 。 如 果 程序 运行 错误 ， 则 尝试 使 用 try . .except 代 人 码 来 捕获 错误 。 我 日 己 就 曾 
经 在 获取 所 有 actiondIgd 时 遇 到 一 个 错误 。 接 下 里 可 以 继续 来 获取 这 些 actionIg 的 投票 信息 。 

选举 人 可 以 投 是 或 否 的 表决 票 , 也 可 以 弃权 。 需要 一 种 方法 来 将 这 些 上 述 信 息 转 化 为 类 似 于 
项 集 或 者 交易 数据 库 之 类 的 东西 。 前面 提 到 过 , 一 条 交易 记录 数据 只 包含 一 个 项 的 出 现 或 不 出 现 
言 息 ， 并 不 包含 项 出 现 的 次 数 。 基 于 上 述 投 票数 据 ， 可 以 将 投票 是 或 否 看 成 一 个 元 素 。 

美国 有 两 个 主要 政 觉 :共和 觉 与 民主 党 。 下面 也 会 对 这 些 信息 进行 编码 并 写 到 事务 数据 库 中 。 
幸运 的 是 ,这 些 信息 在 投票 数据 中 已 经 包括 。 下 面 给 出 构建 事务 数据 库 的 流程 : 首先 创建 一 个 字 
典 , 字典 中 使 用 政客 的 名 字 作 为 键 值 。 当 某 政客 首次 出 现时 ,将 他 及 其 所 属 政党 (民主 党 或 者 共 
和 党 ) 添加 到 字典 中 , 这 里 使 用 0 来 代表 民主 党 , 1 来 代表 共和 党 。 下面 介 绍 如 何 对 投票 进行 编码 。 
对 每 条 议案 创建 两 个 条 上 日 : pill+'Yea' 以 及 bill+'Nay'。 该 方法 允许 在 某 个 政客 根本 没有 投 
票 时 也 能 合理 编码 。 图 11-$ 给 出 了 从 投票 信息 到 元 素 项 的 转换 结 
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图 11-5 美国 国会 信息 到 元 素 〈 项 ) 编号 之 间 的 映射 示意 图 


现在 ， 我 们 已 经 有 一 个 可 以 将 投票 编码 为 元 素 项 的 系统 ， 接 下 来 是 时 候 生 成 事务 数据 库 了 。 
一 旦 有 了 事务 数据 库 ， 就 可 以 应 用 早先 写 的 Apriori 代 码 。 下 面 将 构建 一 个 使 用 actionId 串 作为 
输入 并 利用 votesmart 的 API 来 抓 取 投 票 记 录 的 函数 。 然 后 将 每 个 选举 人 的 投票 转化 为 一 个 项 
集 。 每 个 选举 人 对 应 于 一 行 或 者 说 事务 数据 库 中 的 一 条 记录 。 下 面 看 一 下 实际 的 效果 ， 打 开 
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apriori.py 文 件 并 添加 下 面 清 单 中 的 代码 。 
程序 清单 11-5 “基于 投票 数据 的 事务 列表 填充 函数 


def getTransList (actionIdList, billTitleList): 


itemMeaning = ['Republican', 'Democratic'] 

for billTitle in billTitleList: i . 
itemMeaning.append('%s -- Nay' % billTitle) 局 填充 iemMeaning 列 表 
itemMeaning.append('%s -- Yea' % billTitle) 

transDict = {} 

VoteCount = 2 

for actionId in actionIdList: 
sleep (3) 
print 'getting votes for actionId: %d' % actionId 
try: 


voteList = votesmart .votes.getBillActionVotes (actionId) 
for vote in voteList: 
if not transDict.has key (vote.candidateName): 
transDict [vote.candidateName] = [ 
if vote.officeparties == 'Democratic': 
transDict [vote.candidateName] .append (1) 
elif vote.officeparties == 'Republican': 
transDict [vote.candidateName|] .append (0 ) 
if vote.action == 'Nay': 
transDict [vote.candidateName|] .append (voteCount ) 


elif vote.action == 'Yea': 
transDict [vote.candidateName| .append (voteCount + 1) 
except: 
print "problem getting actionId: %d'" % actionId 
voteCount += 2 
return transDict, itemMeaning 


了 滁 数 getTransList () 会 创建 一 个 事务 数据 库 , 于 是 在 此 基础 上 可 以 使 用 前 面 的 Apriori 代 全 
来 生成 频繁 项 集 与 关联 规则 。 该 孔 数 也 会 创建 一 个 标题 列表 ,所 以 很 容易 了 解 每 个 元 素 项 的 售 义 。 
一 开始 使 用 前 两 个 元 素 “Republican” 和 “Democratic” 创 建 一 个 含义 列表 ;itemMeaning。 当 想 
知道 某 些 元 素 项 的 具体 含义 时 ， 需 要 做 的 是 以 元 系 项 的 编号 作为 索引 访问 itemMeaning 即 可 。 
接 下 来 和 表 历 所 有 议案 ， 然 后 在 议案 标题 后 添加 Nay (反对 ) 或 者 Yea (同意 ) 并 将 它们 放 入 
itemMeaning 列 表 中 人 @, 接 下 来 创建 一 个 空 字典 用 于 加 入 元 素 项 , 然后 遍历 函数 getActionIgs () 
返回 的 每 一 个 actionIdq。 遍 历时 要 做 的 第 一 件 事 是 休眠 ， 即 在 for 循 环 中 一 开始 调用 sleep () 
函数 来 延迟 访问 ， 这 样 做 可 以 避免 过 于 频繁 的 API 调 用 。 接 着 将 运行 结果 打印 出 来 ， 以 便 知 道 程 
序 是 否 在 正常 工作 。 再 接着 通过 trvy. .except 块 来 使 用 votesmartAPI 获 取 革 个 特定 actionId 
相关 的 所 有 投票 信息 。 然 后 ， 届 历 所 有 的 投票 信息 〈 通 和 销 voteList 会 超过 400 个 投票 )。 在 遍历 
时 , 使 用 政客 的 名 字 作为 字典 的 键 值 来 填充 transDict。 如 果 之 前 没有 遇 到 该 政客 , 那么 就 要 获 
取 他 的 政党 信息 。 字 和 典 中 的 每 个 政客 都 有 一 个 列表 来 存储 他 投票 的 元 系 项 或 者 他 的 政和 党 信息 。 接 
下 来 会 看 到 该 政客 是 否 对 当前 议案 投了 赞成 ( Yea ) 或 反对 (Nay ) 票 。 如 果 他 们 之 前 有 投票 ， 
那么 不 管 是 投 赞成 票 还 是 反对 票 , 这 些 信 息 都 将 水 加 到 列表 中 。 如 条 API 调 用 中 发 生 了 什么 错误 ， 
except 模 块 中 的 程序 就 会 朗 调用 并 将 错误 信息 输出 到 屏 硕 上 ， 之 后 疯 数 仍然 继续 执行 。 最 后 ， 
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程序 返回 事务 字典 transDict 及 元 素 项 含义 类 表 1itemMeaning。 
下 面 看 一 下 投票 信息 的 前 两 项 ， 了 解 上 述 代 码 是 否 正 稼 工作 : 


>>> reload (apriori) 

<module 'apriori' from 'apriori.py'> 

>>>transDict,itemMeaning=apriori .getTransList (actionIidList[:2], 
billTitles[:2]) 

getting votes for actionId: 34089 

getting votes for actionId: 34091 


下 面 看 一 下 transDict 中 包含 的 具体 内 容 : 


>>> for key in transDict.keys (): 
print transDict [keyl] 
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如 果 上 面 许多 列表 看 上 去 都 类 似 的 话 , 读者 也 不 要 太 过 担心 。 许 多 政客 的 投票 结果 都 很 类 似 。 
现在 如 果 给 定 一 个 元 又 项 列表 ， 那 么 可 以 使 用 itemMeaning 列 表 来 快速 “解码 ”出 它 的 含义 : 


>>> transDict.keys () [6] 

u' Doyle, Michael 'Mike'' 

>>> for item in transDict[' Doyle, Michael 'Mike''l]: 
print itemMeaning[iteml 


Republican 
Prohibiting Federal Funding of National Public Radio -- Yea 
Removing Troops from Afghanistan - Nay 


上 述 输出 可 能 因 Votesmart 服 务 闫 返回 的 结果 不 同 而 有 所 差异 。 
下 面 看 看 完整 列表 下 的 结果 : 


>>> transDict,itemMeaning=apriori .getTransList (actionIdList, billTitles) 
getting votes for actionId: 34089 
getting votes for actionId: 34091 
getting votes for actionlId: 34229 





接 下 来 在 使 用 前 面 开 发 的 Apriori 算 法 之 前 ， 需要 构建 一 个 包含 所 有 事务 项 的 列表 。 可 以 使 用 
类 似 于 前 面 for 循 环 的 一 个 列表 处 理 过 程 来 完成 : 


>>> dataSsSet = [transDict [key]j for key in transDict.keys ()] 
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上 上 面 这 样 的 做 法 会 去 掉 键 值 ( 即 政客 ) 的 名 字 。 不 过 这 无 关 紧 要 ， 这 些 信息 不 是 我 们 感 兴 
的 内 容 。 我 们 感 兴趣 的 是 元 素 项 以 及 它们 之 间 的 关联 关系 。 接 下 来 将 使 用 Apriori 算 法 来 控 气 上面 
例子 中 的 频繁 项 集 与 关联 规则 。 


11.5.2 ”测试 算法 : 基于 美国 国会 投票 记录 挖掘 关联 规则 


现在 可 以 应 用 11.3 市 的 Apriori 算 法 来 进行 处 理 。 如 果 使 用 默认 的 支持 度 国 值 50%， 那 么 应 该 
不 会 产生 太 多 的 频繁 项 集 : 


>>> L,suppData=apriori .apriori (dataSet, minSupport=0.5) 

>>> 了 

[[frozenset ( [4]) ，ftrozemnset ([13]), frozenset ([0]), frozenset ([21] )]， 
[frozenset ([13, 21])], []] 


使 用 一 个 更 小 的 支持 度 国 值 30% 会 得 到 更 多 频繁 项 集 : 


>>> L,suppData=apriori.apriori(dataSet, minSsupport=0.3) 
>>> len (L) 





8 

当 使 用 30% 的 文 持 度 国 值 时 ， 会 得 到 许多 频繁 项 集 ， 甚 至 可 以 得 到 包含 所 有 7 个 元 素 项 的 6 个 
频繁 集 。 

>>> LI[6] 


[frozenset ([0, 3, 7, 9, 23, 25, 26]), frozenset ([0, 3, 4, 9, 23, 25, 26]),， 
frozenset([0, 3, 4, 7, 9, 23, 26]), frozenset ([0, 3, 4, 7, 9, 23, 25]), 
frozenset ([0, 4, 7, 9, 23, 25, 26]), frozenset([0, 3, 4, 7, 9, 25, 26])] 


获得 频繁 项 集 之 后 就 可 以 结束 ， 也 可 以 尝试 使 用 11.4 广 的 代码 来 生成 关联 规则 。 前 先 将 最 小 
可 信 度 值 设 为 0.7: 

xs Lules = dpriori.generateRules (L, suppData) 
这 样 会 产生 太 多 规则 ， 于 是 可 以 加 大 最 小 可 信 度 值 。 

>>> rules 


frozenset ( [1 
frozenset( [2 











apriori.generateRules (L, suppData, minConf=0.95) 
5]) --> frozenset ([1]) conf: 0.961538461538 
2]) --> frozenset ([1]) conf: 0.951351351351 





frozenset ([25, 26, 3, 4]) --> frozenset([0, 9, 7]) conf: 0.97191011236 
frozenset ([0, 25, 26, 4]) --> frozenset([9, 3, 7]) conf: 0.950549450549 


继续 增加 可 信和 度 信 : 





>>> rules riori.generateRules (L, suppData, minConf=0.99) 


= ap 
frozenset ([3]) --> frozenset ([9]) conf: 1.0 
frozenset([3]) --> frozenset([0]) conf: 0.995614035088 
frozenset([3]) --> frozenset([0, 9]) conf: 0.995614035088 
frozenset([26, 3]) --> frozenset([0, 9]) conf: 1.0 
frozenset([9, 26]) --> frozenset([0, 7]) conf: 0.957547169811 
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frozenset ([23，26，3， 7]) --> frozenset([0, 9]) conf: 1.0 
frozenset ([23, 25, 3, 7]) --> frozenset([0, 9]) conf: 0.994764397906 
frozenset ([25, 26, 3, 4, 7]) --> frozenset([0, 9]) conf: 1.0 


上 面 给 出 了 一 些 有 趣 的 规则 。 如 果 要 找 出 每 一 条 规则 的 含义 , 则 可 以 将 规则 号 作为 索引 输入 


2litemMeaning 中 . 


4， 
4， 








>>> IfemMeaninc[26| 





'Prohibiting the Use of Federal Funds for NASCAR Sponsorships -- Nay' 
>>> itemMeaning|[3] 
'Prohibiting Federal Funding of National Public Radio -- Yea'! 
>>> ItemMeaning [9] 
'Repealing the Health Care Bill -- Yea'! 
在 图 11-6 中 列 出 了 下 面 的 儿 条 规则 : {3} 一 {0}、{22} 一 1 及 {19,26} 一 {0,7}。 
If Then 可 信和 度 
Prohibiting Federal Funding of = : 0 
National Public Radio -- Yea ss 99.6 
Prohibiting Use of Federal 
Funds For Planned = Democrat 95.1% 
Parenthood -- Nay 
Prohibiting the Use of Federal 
Funds for NASCAR Republican 
Sponsorships — Nay And 0 
And | Terminating the Home 95.8 名 
Repealing the Health Care Bill Affordable Modification 


-- Yea Program -- Yea 


图 11-6 关联 规则 {3} 一 _ {01}、{22Y 一 1 与 19.26 一 {0,7} 的 含义 及 可 信和 度 


数据 中 还 有 更 多 有 趣 或 娱乐 性 十 足 的 规则 。 还 记得 前 面 最 早 使 用 的 支持 度 30% 吗 ? 这 意味 着 这 
些 规则 至 少 出 现在 30% 以 上 的 记录 中 。 由 于 至 少 会 在 30% 的 投票 记录 中 看 到 这 些 规则 ， 所 以 这 是 很 
有 意义 。 对 于 {3} 一 {0} 这 条 规则 ， 在 99.6% 的 情况 下 是 成 立 的 。 我 真希 望 在 这 类 事情 上 财 一 把 。 


11.6 ”示例 : 发 现 毒 葛 站 的 相似 特征 


有 时 我 们 并 不 想 寻 找 所 有 频繁 项 集 , 而 只 对 包含 某 个 特定 元 素 项 的 项 集 感 兴趣 。 在 本 草 这 个 
最 后 的 例子 中 , 我 们 会 寻找 毒 蘑 姑 中 的 一 些 公 共 特 征 , 利用 这 些 特征 就 能 避免 吃 到 那些 有 毒 的 莽 
茹 。UCI 的 机 硕 学 习 数 据 集合 中 有 一 个 关于 肋 形 蘑 姑 的 23 种 特征 的 数据 集 ， -个 特征 都 包含 一 
个 标 称 数据 值 。 我们 必须 将 这 些 标 称 值 转化 为 一 个 集合 , 这 一 点 与 前 面 投票 例子 中 的 做 法 类 似 。 季 
运 的 是 , 已 经 有 人 已 经 做 好 了 这 种 转换 ”。Roberto Bayardo 对 UCI 茧 菇 数据 集 进 行 了 解析 , 将 每 个 蘑 
疗 样 本 转换 成 一 个 特征 集合 。 其 中 , 枚 举 了 每 个 特征 的 所 有 可 能 值 ， 如 果 某 个 样本 包含 特征 ， 那么 
该 特征 对 应 的 整数 值 被 包含 数据 集中 。 下 面 我 们 近 距 离 看 看 该 数据 集 。 它 在 源 数据 集合 中 是 一 个 名 
为 mushroom.dat 的 文件 。 下 面 将 它 和 原始 数据 集 http:/archive.ics-uci.edu/mlymachine-learning-databaseSs/ 
mushroom/agaricus-lepiota.data 进 行 比较 。 









































GD “Frequent Itemset Mining Dataset Repository” retrieved July 10, 2011; http://fimi.ua.ac.be/data/. 
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文件 mushroom.dat 的 前 几 行 如 下 : 


1 3 9 13 23 25 34 36 38 40 52 54 59 63 67 76 85 86 90 93 
239 14 23 26 34 36 39 40 52 55 59 63 67 76 85 86 90 93 
249 15 23 27 34 36 39 41 52 55 59 63 67 76 85 86 90 93 


第 一 个 特征 表示 有 毒 或 者 可 食用 。 如 果 某 样本 有 毒 ， 则 值 为 2。 
个 特征 是 蘑菇 从 的 形状 ， 有 六 种 可 能 的 值 ， 分 别 用 整数 3-8 来 表示 。 
为 了 找到 毒 芯 区 中 存在 的 公共 特征 , 可 以 运行 Apriori 算 法 来 寻找 包含 


>>> mushDatset = [line.split() 
open('mushroom.dat'). 


98 107 113 
99 108 114 
99 108 115 


如 条 可 食用 ,， 则 值 为 1。 下 一 














性 征 值 为 2 的 频 凤 项 集 。 


for line in 
readlines()] 


在 该 数据 集 上 运行 Apriori 算 法 : 
>>> L,SsuppData=apriori.apriori (mushDatset, 
在 结 朱 中 可 以 搜索 包含 有 毒 特征 值 2 的 频 楷 项 集 : 


>>> for item in LI[1]: 
If item.intersection('2'): 


minSsupport=0.3) 





print item 


frozenset 





(['2°', 1'591]) 
frozenset (['39', '2']) 
frozenset (['2', '677']) 
frozenset (['2', '347']) 
frozenset(['2', '23']) 

也 可 以 对 更 大 的 项 集 来 重复 上 述 过 程 
>>> for item in LI[3]: 


if item.intersection('2'): print item 


frozenset 


(['63', '59', '2', '93']) 
frozenset(['39' 121, 1'53', '347']) 
frozenset ([' 159', 123', '857']) 
frozenset ([' '59', 1'90', '857']) 
frozenset(['! 121, 136', '347']) 
frozenset (['39', '63', '2', '857']) 
frozenset (['39', '2', '90', '857']) 
frozenset (['2', '59', '1901 1861']) 


了 


接 下 来 你 需要 观察 一 下 这 些 特 征 ， 以 便 知道 了 解 野 芯 菇 的 那些 方面 。 如 果 看 到 其 中 任何 一 个 
特征 ， 那么 这 些 蘑菇 就 不 要 吃 了 。 




















当然 ,最 后 还 要 声明 一 下 : 尽管 上 述 这 些 特征 在 毒 芯 茹 中 很 普 
遍 ， 但 是 没有 这 些 特征 并 不 意味 该 其 阁 就 是 可 食用 的 。 如 果 吃 错 了 藤 茹 ， 
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你 可 能 会 因此 而 丧命 HHo 





关联 分 析 是 用 于 发 现 大 数据 集中 元 系 间 有 趣 关系 的 一 个 工具 集 , 9 WD ee nie be 


些 有 趣 的 关系 。 
关联 规则 ， 





要 一 些 更 智 


第 一 种 方式 是 使 用 频 索 项 集 ， 





每 条 关联 规则 意味 着 元 素 项 之 间 的 “如 果 …… 那 么 
发 现 元 素 项 间 不 同 的 组 合 





它 会 给 出 经 


常 在 一 起 出 现 的 元 素 项 
是 个 十 分 耗 时 的 任务 , 不 可 避免 需要 大 量 昂贵 的 计算 资源 


能 的 方法 在 合理 的 时 间 范围 内 找到 频繁 项 集 。 能够 实现 这 一 





第 二 种 方式 是 


， 这 就 需 
目标 的 一 个 方法 是 Apriori 
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算法 , 它 使 用 Apriori 原 理 来 减少 在 数据 库 上 进行 检查 的 集合 的 数目 。Apriorij 原 理 是 说 如 果 一 个 元 
系 项 是 不 频繁 的 ,那么 那些 包含 该 元 系 的 超 集 也 是 不 频繁 的 。Apriori 算 法 从 单元 系 项 集 开始 ， 通 
过 组 合 满足 最 小 文 持 度 要 求 的 项 集 来 形成 更 大 的 集合 。 文 持 度 用 来 度量 一 个 集合 在 原始 数据 中 出 
现 的 频率 。 

关联 分 析 可 以 用 在 许多 不 同 物 品 上 。 商店 中 的 商品 以 及 网 站 的 访问 页 面 是 其 中 比较 稼 见 的 例 
子 。 关 联 分 析 也 曾 用 于 查看 选举 人 及 法 官 的 投票 历史 。 

每 次 增加 频繁 项 集 的 大 小 ，Apriori 算 法 都 会 重新 扫描 整个 数据 集 。 当 数据 集 很 大 时 ， 这 会 显 
著 降 低频 繁 项 集 发 现 的 速度 。 下 一 章 会 介绍 FP-growth 算 法 "”， 和 Apriori 算 法 相 比 ， 该 算法 只 需要 
对 数据 库 进行 两 次 遍历 ， 能 够 显著 加 快 发 现 繁 项 集 的 速度 。 























(QD H. Li, Y. Wang, D. Zhang, M. Zhang, and E. Chang, “PFP: Parallel FP-Growth for Query Recommendation,” RecSys 2008， 
Proceedings of the 2008 ACM Conference on Recommender Systems; http://portal.acm.org/citation.cfm?id=14534027. 





使 用 FP-growth 算 法 来 高 效 
发 现 频繁 项 集 


本 章 内 容 

口 发 现 事务 数据 中 的 公共 模式 
口 FP-growth 算 法 

口 发 现 Twitter 源 中 的 共 现 词 








你 用 过 搜索 引擎 吗 ? 输入 一 个 单词 或 者 单词 的 一 部 分 , 搜索 引擎 就 会 自动 补 全 查询 词 项 。 用 
户 甚至 事先 都 不 知道 搜索 引擎 推荐 的 东西 是 否 存在 , 反而 会 去 查找 推荐 词 项 ,我 也 有 过 这 样 的 经 
历 ， 当 我 输入 以 “为 什么 ”开始 的 查询 时 ， 有 时 会 出 现 一 些 十 分 请 移 的 推 存 结 末 。 为 了 给 出 这 些 
推荐 查询 词 项 , 搜索 引擎 公司 的 研究 人 员 使 用 了 本 章 将 要 介绍 的 一 个 算法 。 他 们 通过 查看 互联 网 
上 的 用 词 来 找 出 经 常 在 一 块 出 现 的 词 对 "。 这 需要 一 种 高 效 发 现 频繁 集 的 方法 。 

本 和 草 会 在 上 一 草 讨 论 话题 的 基础 上 进行 扩展 , 将 给 出 一 个 非常 好 的 频繁 项 集 发 现 算法 。 该 算 
法 称 作 FP-growth, 它 比 上 一 章 讨 论 的 Apriori 算 法 要 快 。 它 基于 Apriori 构 建 , 但 在 完成 相同 任务 时 
采用 了 一 些 不 同 的 搁 术 。 这 里 的 任务 是 将 数据 集 存储 在 一 个 特定 的 称 作 FP 树 的 结构 之 后 发 现 频繁 
项 集 或 者 频繁 项 对 , 即 常 在 一 块 出 现 的 元 素 项 的 集合 FP 树 。 这 种 做 法 使 得 算法 的 执行 速度 要 快 于 
Apriori1， 通 常 性 能 要 好 两 个 数量 级 以 上 。 

上 上 一 章 我 们 讨论 了 从 数据 集中 获取 有 趣 信息 的 方法 , 最 常用 的 两 种 分 别 是 频繁 项 集 与 关联 规 
则 。 第 11 半 中 介绍 了 发 现 频 繁 项 集 与 天 键 规则 的 算法 ， 本 章 将 继续 关注 发 现 频繁 项 集 这 一 任务 。 
我 们 会 深入 探索 该 任务 的 解决 方法 ， 并 应 用 FP-growth 算 法 进行 处 理 ， 该 算法 能 够 更 有 效 地 挖掘 
数据 。 这 种 算法 虽然 能 更 为 高 效 地 发 现 频繁 项 集 ， 但 不 能 用 于 发 现 关联 规则 。 

FP-growth 算 法 只 需要 对 数据 库 进 行 两 次 扫描 ， 而 Apriori 算 法 对 于 每 个 潜在 的 频繁 项 集 虱 会 
扫描 数据 集 判 定 给 定 模 式 是 否 频 繁 ， 因 此 FP-growth 算 法 的 速度 要 比 Apriori 算 法 快 。 在 小 规模 数 
据 集 上 ， 这 不 是 什么 问题 ， 但 当 处 理 更 大 数据 集 时 ， 就 会 产生 较 大 问题 。FP-growth 只 会 扫描 效 


















































(DJ. Han, J. Pei Y. Yin, R. Mao, “Mining Frequent Patterns without Candidate Generation: A Frequent-Pattern Tree 
Approach,” Data Mining and Knowledge Discovery 8 (2004), 33—87. 





224 第 12 章 使 用 FP-growth 算法 来 高 效 发现 频 繁 项 集 


据 集 两 次 ， 它 发 现 频繁 项 集 的 基本 过 程 如 下 : 

(1) 构建 FP 树 

(2) 从 FP 树 中 挖掘 频 党项 集 

下 面 先 讨论 FP 树 的 数据 结构 ,然后 看 一 下 如 何 用 该 结构 对 数据 集 编 码 。 最 后 , 我 们 会 介绍 两 
个 例子 : 一 个 是 从 Twitter 文本 流 中 挖掘 常 用 词 ， 另 一 个 从 网 民 网 页 浏览 行为 中 挖掘 常见 模式 。 


12.1 FP 树 : 用 于 编码 数据 集 的 有 效 方式 














FP-growth 算 法 
优点 : 一 般 要 快 于 Apriori。 
缺点 : 实现 比较 困难 ， 在 某 些 数据 集 上 性 能 会 下 降 。 
适用 数据 类 型 : 标 称 型 数据 。 


FP-growth 算 法 将 数据 存储 在 一 种 称 为 FP 树 的 紧凑 数据 绪 构 中 。FP 代 表 频 每 模式 〈Frequent 
Pattern )。 一 棵 FP 例 看 上 去 与 计算 机 科学 中 的 其 他 树 结构 类 似 , 但 是 它 通 过 链接 〈link ) 来 连接 相 
似 元 系 ， 被 连 起 来 的 元 素 项 可 以 看 成 一 个 链表 。 图 12-1 给 出 了 FP 树 的 一 个 例子 。 

















图 12-1 一 棵 FP 树 ， 看 上 去 和 一 般 的 树 没 什么 两 样 ， 包 含 春 连接 相似 节点 的 链接 


同 搜索 树 不 同 的 是 ， 一 个 元 素 项 可 以 在 一 棵 FP 树 中 出 现 多 次 。FP 树 会 存储 项 集 的 出 现 频率 ， 
而 每 个 项 集会 以 路 径 的 方式 存储 在 树 中 。 存在 相似 元 系 的 集合 会 共 至 树 的 一 部 分 。 只 有 当 集 合 之 
间 完 全 不 同时 ， 树 才 会 分 又 。 树 世 点 上 给 出 集合 中 的 单个 元 系 及 其 在 序列 中 的 出 现 次 效 ， 路 径 
会 给 出 该 序列 的 出 现 次 数 。 上 面 这 一 切 听 起 来 可 能 有 点 让 人 迷糊 ,不 过 不 用 担心 , 稍 后 束 会 介绍 
FP 树 的 构建 过 程 。 

相似 项 之 间 的 链接 即 予 点 链接 《node link )， 用 于 快速 发 现 相似 项 的 位 置 。 为 了 打消 读者 的 
疑惑 ， 下 面 通过 一 个 简单 例子 来 说 明 。 表 12-1 给 出 了 用 于 生成 图 12-1 中 所 示 FP 树 的 数据 。 
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表 12-1 用 于 生成 图 12-1 中 FP 树 的 事务 数据 样 例 


事务 ID 事务 中 的 元 素 项 
001 r, Zz, h, J], p 
002 Z, y, X, W, V, U, t,s 
003 Z 
004 T, X, n，0,，S 
005 y, 1, X, Z, q, t, Pp 
006 y, Z, X, ©€, q, S, t, mM 


在 图 12-1 中 ， 元 素 项 z 出 现 了 5 次 ， 集合 fZ} 出 现 了 1 次 。 于 是 可 以 得 出 结论 : zz 一定 是 日 己 本 
屿 或 者 和 其 他 符号 一 起 出 现 了 4 次 。 我 们 再 看 下 z 的 其 他 可 能 性 。 集 合 ft,s,y,x,Zz} 出 现 了 2 次 ， 集合 
{bbyX,Z} 出现 了 1 次 。 元 么 项 z 的 右边 标的 是 5， 表 示 z 出 现 了 5 次 ， 其 中 刚才 已 经 给 出 了 4 次 出 现 ， 
所 以 它 一 定单 独 出 现 过 1 次 。 通 过 观察 表 12-1 看 看 刚才 的 结论 是 否 正确 。 前 面 提 到 {tr,y,x,z} 只 出 
现 过 1 次 ， 在 事务 数据 集中 我 们 看 到 005 号 记录 上 却 是 {y,r,x,z,q,t,p}。 那 么 ，q 和 p 去 哪儿 了 呢 ? 

这 里 使 用 第 11 章 给 出 的 支持 度 定义 , 该 指标 对 应 一 个 最 小 国 值 , 低 于 最 小 国 值 的 元 素 项 被 认 
为 是 不 频 裳 的。 如 果 将 最 小 文 持 度 议 为 ?3， 然 后 应 用 频 党 项 分 析 算法 ， 就 会 获得 出 现 3 次 或 3 次 以 
上 的 项 集 。 上 面 在 生成 图 12-1 中 的 FP 树 时 ， 使 用 的 最 小 文 持 度 为 3， 因 此 q 和 p 并 没有 出 现在 最 后 
的 树 中 。 

FP-growth 算 法 的 工作 流程 如 下 。 首 先 构 建 FP 树 ， 然 后 利用 它 来 挖 气 频 繁 项 集 。 为 构建 FP 树 ， 
需要 对 原始 数据 集 扫 摘 两 通 。 第 一 过 对 所 有 元 系 项 的 出 现 次 数 进 行 计 数 。 记 住 第 11 草 中 给 出 的 
Apriori 原 理 ， 即 如 果 某 元 条 是 不 频繁 的 ， 那么 包含 该 元 系 的 超 集 也 是 不 频繁 的 ， 所 以 就 不 需要 考 
虑 这 些 超 集 。 数 据 库 的 第 一 志 扫 摘 用 来 统计 出 现 的 频率 ， 而 第 二 过 扫 摘 中 只 考虑 那些 频 索 元 素 。 





























FP-growth 的 一 般 流程 

(1) 收集 数据 : 使 用 任意 方法 。 

(2) 准备 数据 : 由 于 存储 的 是 集合 ， 所 以 需要 离散 数据 。 如 果 要 处 理 连续 数据 ， 需 要 将 它们 
量化 为 离散 值 。 

(3) 分 析 数 据 : 使 用 任意 方法 。 

(4) 训练 算法 : 构建 一 个 FP 树 ， 并 对 树 进行 挖掘 。 

(5) 测试 算法 : 没有 测试 过 程 。 

(6) 使 用 算法 : 可 用 于 识别 经 常 出 现 的 元 素 项 ， 从 而 用 于 制定 决策 、 推 荐 元 素 或 进行 预测 
等 应 用 中 。 


12.2 构建 FP 树 
在 第 二 次 扫描 数据 集 时 会 构建 一 棵 FP 树 。 为 构建 一 棵 树 ， 需 要 一 个 容器 来 保存 树 。 
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12.2.1 创建 FP 树 的 数据 结构 


本 章 的 FP 树 要 比 书 中 其 他 树 更 加 复杂 , 因此 要 创建 一 个 类 来 保存 树 的 每 一 个 节点 。 创建 文件 
fpGrowth.py 并 加 入 下 列 程序 中 的 代码 。 


程序 清单 12-1 FP 树 的 类 定义 


class treeNode: 


def init (self, nameValue, numOccur, parentNode): 
self .name = nameValue 
self.count = numOccur 


self.nodeLink = None 
self .parent = parentNode 
self.children = {)} 


def inc(self, numOccur): 
self .count += numOccur 


def disp(self, ind=1): 
print ' '*ind, self .name, ' ', Self.count 
for child in self.children.values () : 
child.disp (ind+1) 


上 面 的 程序 给 出 了 FP 树 中 市 点 的 类 定义 。 类 中 包含 用 于 存放 方 点 名 子 的 变量 和 1 个 计数 值 ， 
nodeLink 变 量 用 于 链接 相似 的 元 素 项 〈 参考 图 12-1 中 的 虚线 )。 类 中 还 使 用 了 父 变量 parent 来 
指 癌 当 前 节点 的 父 节 点 。 通 第 情况 下 并 不 需要 这 个 变量 ， 因 为 通 第 是 从 上 往 下 达 代 访问 市 点 的 。 
本 草 后 面 的 内 容 中 需要 根据 给 定 叶 子 扩 点 上 湖 整 棵 树 ， 这 时 就 需要 指 癌 父 市 点 的 指针 。 最 后 ,类 
中 还 包含 一 个 空 字 典 变 量 ， 用 于 存放 市 点 的 于 市 点 。 

程序 清单 12-1 中 包括 两 个 方法 , 其 中 inc () 对 count 变 量 增加 给 定 值 ， 而 另 一 个 方法 aisp () 
用 于 将 树 以 文本 形式 显示 。 后 者 对 于 树 构 建 来 说 并 不 是 必要 的 ,但 是 它 对 于 调试 非常 有 用 。 

运行 一 下 如 下 代码 : 

>>> import fpGrowth 

>>> rootNode = fpGrowth.treeNode('pyramid',9, None) 


这 会 创建 树 中 的 一 个 单 太 点 。 接 下 来 为 其 增加 一 个 子 市 反 : 
>>> rootNode.children[l'eye']=fpGrowth.treeNode('eye', 13, None) 


为 显示 于 广 操 ， 输 入 : 


>>> rootNode.disp() 
pyramid 9 
eye 13 
> -J HH 上 二 
再 添加 一 个 节点 看 看 两 个 子 节点 的 展示 效果 : 
>>> rootNode.children['phoenix']=fpGrowth.treeNode('phoenix', 3, None) 
>>> rootNode.disp() 
pyramid 9 


eye 13 
phoenix 3 


现在 FP 树 所 需 数据 结构 已 经 建 好 ， 下 面 就 可 以 构建 FP 树 了 。 
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12.2.2 构建 FP 树 


除了 图 12-1 给 出 的 FP 树 之 外 , 还 需要 一 个 头 指针 表 来 指 四 给 定 类 型 的 第 一 个 实例 。 利 用 头 指 
针 表 ， 可 以 快速 访问 FP 树 中 一 个 给 定 类 型 的 所 有 元 系 。 图 12-2 给 出 了 一 个 头 指 针 表 的 示意 图 。 











图 12-2 ”市 头 指 针 表 的 FP 树 ， 头 指针 表 作 为 一 个 起 始 指 针 来 发 现 相似 元 系 项 


这 里 使 用 一 个 字典 作为 数据 结构, 来 保存 头 指针 表 。 除 了 存放 指针 外 ， 头 指针 表 还 可 以 用 来 
保存 FP 树 中 每 类 元 系 的 总 数 。 

第 一 次 让 历数 据 集会 获得 每 个 元 系 项 的 出 现 频率 。 接 下 来 ,去 挥 不 满足 最 小 文 持 度 的 元 系 项 。 
再 下 一 步 构 建 FP 树 。 在 构建 时 , 读 和 人 每 个 项 集 并 将 其 添加 到 一 条 已 经 存在 的 路 径 中 。 如 果 该 路 径 
不 存在 ， 则 创建 一 条 新 路 径 。 每 个 事务 就 是 一 个 无 序 集合 。 假 设 有 集合 {z,x,y} 和 {y,z,r}， 那 么 在 
FP 例 中 ,相同 项 会 只 表示 一 次 。 为 了 解决 此 问题 ,在 将 集合 添加 到 树 之 前 ， 需 要 对 每 个 集合 进行 
排序 。 排 序 基 于 元 系 项 的 绝对 出 现 频率 来 进行 。 使 用 图 12-2 中 的 头 指针 节点 值 ， 对 表 12-1 中 数据 
进行 过 滤 、 重 排序 后 的 数据 显示 在 表 12-2 中 。 


表 12-2 ”将 非 频 或 项 移 除 并 且 重 排序 后 的 事务 数据 集 


























事务 ID 事务 中 的 元 素 项 过 滤 及 重 排 序 后 的 事务 
001 r, Z, h, j,p Z, 工 
002 Z, y, X, W, V, UtS Z, X, y, S, t 
003 Zz Z 
004 T, X, N, 0,S X, S, I 
005 y, T, X, Z, q, tb p Z, X, y, T, t 
006 y, Z, X, €, q, s, t, m Z, X, y, S, t 


在 对 事务 记录 过 滤 和 排序 之 后 ， 就 可 以 构建 FP 树 了 。 从 空 集 (符号 为 @ ) 开始 ， 向 其 中 不 
断 添加 频繁 项 集 。 过 滤 、 排 序 后 的 事务 依次 添加 到 树 中 ， 如 果树 中 已 存在 现 有 元 素 ， 则 增加 现 有 
元 系 的 值 ; 如 果 现 有 元 素 不 存在 ， 则 癌 树 添加 一 个 分 枝 。 对 表 12-2 前 两 条 事务 进行 添加 的 过 程 显 
示 在 图 12-3 中 。 
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Add {Z, r"} 








图 12-3 FP 树 构建 过 程 的 一 个 示意 图 ， 图 中 给 出 了 使 用 表 12-2 中 数据 构建 FP 树 的 前 两 步 











通过 上 面 的 叙述 , 我 们 大 致 了 解 了 从 事务 数据 集 转 换 为 FP 树 的 基本 思想 , 接 下 来 我 们 通过 代 
码 来 实现 上 述 过 程 。 打 开 fpGrowth.py 文 件 ， 加 入 下 面 的 代码 。 


程序 清单 12-2 ”FP 树 构建 函数 


def createTree (dataSet, minSup=1): 
headerTable = {} 
for trans in dataSet 
for item in trans: 


headerTable[item] = headerTable.get (item, 0) + datasSet [trans] 
for k in headerTable.keys(): 移 除 不 满足 最 小 
if headerTable[k] < minSup: 全 支持 度 的 元 素 项 
del (headerTable [kl]) 
freqItemSet = set (headerTable.keys () ) 
if lenl(lfregqItemSet) == 0: return None, None 
for k in headerTable: 8。 如 果 没 有 元 素 项 满足 
headerTable[k] = [headerTable[k], None] 要 求 ， 则 退出 


retTree = treeNode('Null Set', 1, None) 
for tranSet, count in dataSset.items () : 
localD = {} 


for item in tranSset: 根据 全 局 频率 对 每 个 事 


if item in fredItemsSet : 务 中 的 元 素 进行 排序 
localD[item] = headerTable[item] [0] 
if len(localD) > 0: 
orderedItems = [VvV[0] for Vv in sorted(localD.items(), 
key=lambda p: pl[l1], reverse=True)] 
updateTree (orderedIitems, retTree, \ 使 用 排序 后 的 频率 项 
headerTable, count) 集 对 树 进行 填充 


return retTree, headerTable 


def updateTree (items, inTree, headerTable, count): 
If items [0] in inTree.children: 
inTree.children[items [0]|] .inc(count) 
else: 
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treeNode (items [0] ， count, inTree) 
None: 
ijnTree.children [items[0]] 


inTree.children[items[0]] 
if headerTable[litems [0] 
headerTable[items [0]] 
else: 
updateHeader (headerTable[items [0]] [1], 
inTree.childrenl[items[0]|]) 


] 
1] 


if len(items) > 1: 


updateTree (items[1::], inTree.children[litems[0]], 
headerTable, count) 
def updateHeader (nodeToTest, targetNode): 对 剩 下 的 元 素 项 迭代 
while (nodeToTest .nodeLink != None): 调用 updateTree 函 数 
nodeToTest = nodeToTest .nodeLink 


nodeToTest .nodeLink = targetNode 

上 述 代 码 中 包含 3 个 函数 。 第 一 个 函数 createTree() 使 用 数据 集 以 及 最 小 支持 度 作为 参数 
来 构建 FP 树 。 树 构建 过 程 中 会 帝 历 数据 集 两 次 。 第 一 次 遍历 扫描 数据 集 并 统计 每 个 元 素 项 出 现 的 
频 度 。 这 些 信 息 被 存储 在 头 指针 表 中 。 接 下 来 ， 扫 摘 头 指针 表 删 拯 那 些 出 现 次 数 少 于 minsup 的 
项 @。 如 果 所 有 项 都 不 频繁 ， 就 不 需要 进行 下 一 步 处 理 @, 接 下 来 ， 对头 指针 表 稍 加 扩展 以 便 可 
以 保存 计数 值 及 指 癌 每 种 类 型 第 一 个 元 素 项 的 指针 。 然 后 创建 只 包含 空 集合 多 的 根 节点 。 最 后 ， 
再 一 次 遍历 数据 集 ， 这 次 只 考虑 那些 频繁 项 合 。 这些 项 已 经 如 表 12-2 所 示 那 样 进行 了 排序 ， 然 后 
调用 updateTree () 方 法 @。 接 下 来 讨论 函数 updateTree ()。 

为 了 让 FP 树 生 长 "， 需 调用 updateTree， 其 中 的 输入 参数 为 一 个 项 集 。 图 12-3 给 出 了 
updateTree() 中 的 执行 细节 。 该 限 数 痛 先 测试 事务 中 的 第 一 个 元 又 项 是 否 作 为 子 市 点 存在 。 如 
果 存 在 的 话 ， 则 更 新 该 元 素 项 的 计数 ; 如 果 不 存 在 ， 则 创建 一 个 新 的 treeNode 并 将 其 作为 一 个 
子 市 点 添加 到 树 中 。 这 时 ， 尖 指针 表 也 要 更 新 以 指 癌 新 的 节点 。 更 新 涉 指 针 表 需要 调用 少数 
updateHeader (), 接 下 来 会 讨论 该 子 数 的 细 方 。updateTree() 完 成 的 最 后 一 件 事 是 不 断 迭 代 
调用 自身， 每 次 调用 时 会 去 掉 列 表 中 第 一 个 元 素 人 @。 

程序 清单 12-2 中 的 最 后 一 个 函数 是 updateHeader () ,， 它 确保 下 点 链接 指 回 树 中 该 元 系 项 的 
每 一 个 实例 。 从 头 指针 表 的 nodeLink 开 始 , 一 直 沿 看 nodeLink 直 到 到 达 链 表 未 尾 。 这 就 是 一 个 
链表 。 当 人 处 理 树 的 时 候 , 一 种 很 自然 的 反应 就 是 迭代 完成 每 一 件 事 。 当 以 相同 方式 处 理 链表 时 可 
能 会 遇 到 一 些 问题 ， 原 因 是 如 采 链 表 很 长 可 能 会 遇 到 迭代 调用 的 次 数 限 制 。 

在 运行 上 例 之 前 ， 还 需要 一 个 真正 的 数据 集 。 这 可 以 从 代码 库 中 获得 ， 或 者 直接 手工 输 
人 。1loadSimpDat () 图 数 会 返回 一 个 事务 列表 。 这 和 表 12-1 中 的 事务 相同 。 后 面 构建 树 时 会 
使 用 createTree () 图 数 ， 而 该 晒 数 的 输入 数据 类 型 不 是 列表 。 其 需要 的 是 一 部 字典 ， 其 中 
项 集 为 字典 中 的 键 ， 而 频率 为 每 个 键 对 应 的 取 什 。createInitset() 用 于 实现 上 述 从 列表 
到 字典 的 类 型 转换 过 程 。 将 下 列 代 但 添加 到 印 Growth.py 文 件 中 。 

































































Gd 这 就 是 FP-growth 中 的 growth (生长 ) 一 词 的 来 源 。 
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程序 清单 12-3 ”简单 数据 集 及 数据 包 汤 带 


def loadSsimpDat () : 


| 
simpDat = [['r', 'z', 'h', 'j', 'p'], 
[ZIYI Xl, WIIVIIUI 't', 's'], 
['z'], 
[TE XT Tn "©O!', Ve"], 
| 
| 
return simpDat 


def createInitSet (dataSsSet): 
retDict = {} 
for trans in dataset: 
retDict [frozenset (trans)] = 1 
return retDict 


好 了 ,下 面 看 看 实际 的 效果 。 将 程序 清单 12-3 中 的 代码 加 入 文件 fpGrowth.py 之 后 ， 在 Python 
提示 和 从 下 输入 命令 : 


>>> reload (fpGrowth) 
<module 'fpGrowth' from 'fpGrowth.py'> 


站 完 ， 叶 入 数据 库 实 例 : 


>>> SimpDat = fpGrowth.loadSsimpDat () 
>>> simpDat 











[ [7,; Le ih', go 'p'], [", Wad 1 和 1 ， 1IW1I， Bra UR el 1sg'],， 
['z'], [和 1 区 1 II7， "OT = ['y', a so Ta en PE 'p'], 
['y', "FY, 'x!, ret, 'q', 031， tt ts im']] 


接 下 来 为 了 困 数 createTree() ， 需 要 对 上 面 的 数据 进行 格式 化 处 理 : 


>>> initSet = fpGrowth .createInitSet (simpDat) 
>>> initSet 


{frozenset (['e', im', 'q', 'S', 't', 'y', 'x', '2']): 1, frozenset(['x', 
'g™, EE, IO1 ， in']): 1, frozenset(['s', 1IUT， 七 1， 1IW1T， 1IVTI， 1IY TI ， !'x!', 
'2']): 1, frozenset(['g', 'Pp', rr, 't', 'y', 'x', '2Z']): 1, 

frozenset (['h', 'r', 'z', 'p', 'j']): 1, frozenset(['z']): 1} 


于 是 可 以 通过 如 下 命令 创建 FP 树 : 
>>> myFPtree, myHeaderTab = fpGrowth.createTree (initSet, 3) 


使 用 ai sp () 方 法 给 出 树 的 文本 表示 结 末 : 


>>> myEPLree.dqisp() 
Null Set 1 
区 1 
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上 面 给 出 的 是 元 素 项 及 其 对 应 的 频率 计数 值 , 其 中 每 个 缩 进 表示 所 处 的 树 的 帝 度 。 该 者 可 以 
验证 一 下 这 棵 树 与 图 12-2 中 所 示 的 树 是 否 等 价 。 
现在 我 们 已 经 构建 了 FP 树 ， 接 下 来 就 使 用 它 进 行 频 繁 项 集 挖掘 。 


12.3 ”从 一 棵 FP 树 中 挖掘 频繁 项 集 


实际 上 ， 到 现在 为 止 大 部 分 比较 困难 的 工作 已 经 处 理 完了 。 接 下 来 写 的 代码 不 会 再 像 12.2 市 
那样 多 了 。 有 了 FP 树 之 后 ， 就 可 以 抽取 频 索 项 集 了 。 这 里 的 思路 与 Apriori 算 法 大 致 类 似 , 首先 从 
单元 素 项 集合 开始 , 然后 在 此 基础 上 逐步 构建 更 大 的 集合 。 当 然 这 里 将 利用 FP 树 来 做 实现 上 述 过 
程 ， 不 再 需要 原始 数据 集 了 。 

从 FP 树 中 抽取 频繁 项 集 的 三 个 基本 步 召 如 下 : 

(1) 从 FP 树 中 获得 条 件 模 式 基 ; 

(2) 利用 条 件 模 式 基 ， 构建 一 个 条 件 FP 树 ; 

(3) 欠 代 重复 步骤 (1) 步 又 (2)， 百 到 例 包含 一 个 元 素 项 为 止 。 

接 下 来 重点 关注 第 (1) 步 , 即 寻 找 条 件 模式 基 的 过 程 。 之 后 , 为 每 一 个 条 件 模式 基 创 建 对 应 的 
条 件 FP 树 。 最 后 需要 构造 少许 代码 来 封闭 上 述 两 个 函数 ， 并 从 FP 树 中 获得 频繁 项 集 。 


12.3.1 抽取 条 件 模式 基 


自 完 从 上 一 市 发 现 的 已 经 保存 在 尖 指 针 表 中 的 单个 频 党 元 系 项 开始 。 对 于 每 一 个 元 素 项 , 获 
得 其 对 应 的 条 件 模 式 基 ( conditional pattern base )。 条 件 模式 基 是 以 所 查找 元 系 项 为 结尾 的 路 径 集 
合 。 每 一 条 路 径 其实 都 是 一 条 前 缓 路径 ( prefix path )。 信 而 言 之 , 一 条 前 缀 路 径 是 介 于 所 查找 元 
素 项 与 树 根 市 点 之 间 的 所 有 内 容 。 

回 到 图 12-2, 符号 t 的 前 级 路 径 是 {x,s}、{zZ,x,y} 和 {Zz}。 每 一 条 前 级 路 径 都 与 一 个 计数 值 关 联 。 
该 计数 值 等 于 起 始 元 素 项 的 计数 值 , 该 计数 值 给 了 每 条 路 人 径 上 rt 的 数目 。 表 12-3 列 出 了 上 例 当 中 
一 个 频 演 项 的 所 有 前 级 路 径 。 


























表 12-3 每 个 频繁 项 的 前 缀 路 径 


频 繁 项 前 缀 路 径 
Z {}5 
r {xX,S}1, {2Z,X,y}1, {Zz}1 
x {2}3, 1 
y {2Z,X}3 
S {2,X YY 2 {x} 
t {2Z,X,y,S}2, {2Z,X,y,r}1 


前 缀 路径 将 被 用 于 构建 条 件 FP 树 , 但 是 现在 暂时 先 不 需要 考虑 这 件 事 。 为 了 获得 这 些 前 级 路 
径 ， 可 以 对 树 进行 穷 举 式 搜索 ， 和 直到 获得 想 要 的 频繁 项 为 止 , 或 者 使 用 一 个 更 有 效 的 方法 来 加 速 
搜索 过 程 。 可 以 利用 先前 创建 的 头 指针 表 来 得 到 一 种 更 有 效 的 方法 。 头 指针 表 包 含 相 同类 型 元 素 
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链表 的 起 始 指 针 。 一 旦 到 达 了 每 一 个 元 系 项 ， 就 可 以 上 湖 这 标 树 直到 根 市 点 为 止 。 
下 面 的 程序 清单 给 出 了 前 绥 路 径 发 现 的 代码 ， 将 其 次 加 到 文件 外 Growth.py 中 。 


程序 清单 12-4 发现 以 给 定 元 系 项 结尾 的 所 有 路 径 的 函数 


def ascendTree (leafNode, prefixpath): 


if leafNode.parent != None: 
prefixPpath.append (leafNode .name) 0 迁 代 上 漳 整 棵 树 
ascendTree (LeaftNodqe .parent, prefixpath) 

def findprefixpath (basepat, treeNode): 

condPats = {} 

while treeNode != None: 
prefixpath = [|] 
ascendTree (treeNode, prefixpath) 
if len(prefixPpath) > 1: 

condpats [frozenset (prefixpath[1:])] = treeNode.count 

treeNode = treeNode.nodeLink 

return condPpats 


上 述 程 序 中 的 代码 用 于 为 给 定 元 系 项 生成 一 个 条 件 模 式 基 , 这 通过 访问 树 中 所 有 包含 给 定 元 


素 项 的 节点 来 完成 。 当 创建 树 的 时 候 , 使 用 头 指针 表 来 指 问 该 类 型 的 第 一 个 元 素 项 , 该 元 素 项 也 
会 链接 到 其 后 续 元 又 项 。 困 数 findqPrefixPath () 允 历 链表 直到 到 达 绪 尾 。 每 遇 到 一 个 元 系 项 都 
会 调用 ascendTree () 来 上 济 FP 树 ,并 收集 所 有 遇 到 的 元 素 项 的 名 称 人 @。 该 列表 返回 之 后 添加 到 
条 件 模式 基 字 典 condPats 中 。 

使 用 之 前 构建 的 树 来 看 一 下 实际 的 运行 效果 : 

>>> reload (fpGrowth) 

<module 'fpGrowth' from 'fpGrowth.py'> 

>>> fpGrowth.findpPprefixpath('x', myHeaderTapb['x'] [1]) 

{frozenset (['z']): 3} 

>>> fpGrowth.findprefixpath('z', myHeaderTabl['z'] [1]) 

{} 

>>> fpGrowth.findprefixpath('r', myHeaderTabl[l'r'] [1]) 

{frozenset (['x', ISI]): 1, frozenset (['z']): 1, 

frozenset (['y', 'x', '2z']): 1} 


读者 可 以 检查 一 下 这 些 值 与 表 12-3 中 的 结果 是 否 一 致 。 有 了 条 件 模式 基 之 后 ， 就 可 以 创建 条 
件 FP 树 。 
































12.3.2 创建 条 件 FP 树 


对 于 每 一 个 频繁 项 ,必要 创建 一 棵 条 件 FP 树 。 我 们 会 为 z、x 以 及 其 他 频繁 项 构建 条 件 树 。 可 
以 使 用 刚才 发 现 的 条 件 模 式 基 作为 输入 数据 ， 并 通过 相同 的 建树 代码 来 构建 这 些 树 。 然 后 ,我 们 
会 递归 地 发 现 频繁 项 、 发 现 条 件 模式 基 ， 以 及 发 现 男 外 的 条 件 树 。 举 个 例子 来 说 , 假定 为 频繁 项 
创建 一 个 条 件 FP 树 , 然后 对 {ty}、{t,x}、… 重 复 该 过 程 。 元 系 项 t 的 条 件 FP 树 的 构建 过 程 如 图 12-4 
所 未 。 
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t 的 条 件 FP 树 


条 件 模式 基 : {y,x,s,z}:2, {y,x,r,zZ}:1 
最 小 支持 度 = 3 
去 掉 : S AS 工 


加 入 {y,x,Zz} :2 











图 12-4 ”tt 的 条 件 FP 树 的 创建 过 程 。 最 初 树 以 空 集 作 为 根 节点 。 接 下 来 ， 原 始 的 集 
合 {y,x,s,z} 中 的 集合 {fy,x,z} 被 添加 进来 。 因 为 不 满足 最 小 支持 度 要 求 ， 字 
人 符 s 并 没有 加 入 进来 。 类 似 地 ，{y,x,z} 也 从 原始 集合 {y,x,r,z} 中 添加 进来 


在 图 12-4 中 ,注意 到 元 素 项 s 以 及 z 是 条 件 模式 基 的 一 部 分 ,但 是 它们 并 不 属于 条 件 FP 树 。 原 
因 是 什么 ”如 果 讨 论 s 以 及 r 的 话 ， 它 们 难道 不 是 频繁 项 吗 ?” 实 际 上 单独 来 看 它们 都 是 频繁 项 ,但 
是 在 t 的 条 件 树 中 ， 它 们 却 不 是 频繁 的 ， 也 就 是 说 ，{tr} 及 {t,s} 是 不 频繁 的 。 

接 下 来 ,对 集合 {t,z} 、{fbx} 以 及 {ty} 来 挖掘 对 应 的 条 件 树 。 这 会 产生 更 复杂 的 频繁 项 集 。 该 
过 程 重复 进行 ， 直 到 条 件 树 中 没有 元 素 为 止 ， 然 后 就 可 以 停止 了 。 实 现代 码 相对 比较 直观 ,使 用 
一 些 鹿 归 加 上 之 前 写 的 代码 就 可 以 完成 。 打 开 fpGrowth.py， 将 下 面 程 序 中 的 代码 添加 进去 。 


程序 清单 12-5 递归 查找 频 演 项 集 的 mineTree 限 数 
def mineTree (inTree, headerTable, minSup, preFix, freqltemList): 


bigL = [v[I0] for Vv in sorted(headerTable.items(), 人/ 从 头 指针 表 的 底 端 开始 























key=lambda p: p[1])] 
for basepPat in bigL: 
newFreqSet = preFix.copy() 
newFregqSet .add (basepat) 
freqItemList.append (newFregqSet) 
condpattBases = findprefixPpath (basepat, headerTable [basePat] [1]) 
myCondTree, myHead = createTree (condPattBases,\ 


从 条 件 模 式 基 来 构建 条 件 FP 树 


minSup) 
if myHead != None: 
mineTree (myCondTree, myHead, minSup, newFreqSet, freqIitemList) 
挖掘 条 件 FP 树 





创建 条 件 树 、 前 缀 路 径 以 及 条 件 基 的 过 程 听 起 来 比较 复杂 , 但 是 代码 起 来 相对 人 简单。 程序 首 
先 对 头 指针 表 中 的 元 素 项 按照 其 出 现 频率 进行 排序 。( 记 住 这 里 的 默认 顺序 是 按照 从 小 到 大 , )@ 
然后 ， 将 每 一 个 频 党 项 添加 到 频繁 项 集 列 表 fredqItemList 中 。 接 下 来 ， 递 归 调 用 程序 清单 12-4 
中 的 findPrefixPath() 困 数 来 创建 条 件 基 。 该 条 件 基 被 当成 一 个 新 数据 集 输送 给 create- 
Tree() 水 数 。@ 这 里 为 子 数 createTree() 添 加 了 足够 的 灵活 性 ， 以 确保 它 可 以 被 重用 于 构建 
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条 件 树 。 最 后 ， 如 果树 中 有 元 素 项 的 话 ， 弟 归 调用 mineTree () 函数 个。 





) 
下 面 将 整个 程序 合并 到 一 块 看 看 代码 的 实际 运行 效 来 。 将 程序 清单 12-5 中 的 代码 添加 到 文件 


fpGrowth.py 中 并 保存 ， 然 后 在 Python 提示 符 下 输入 : 


>>> reload (fpGrowth) 
<module 'fpGrowth' from 'fpGrowth.py'> 


下 面 建 立 一 个 空 列表 来 存储 所 有 的 频 索 项 集 : 








>>> freqItems = | 
接 下 来 运行 mineTree() ， 显 示 出 所 有 的 条 件 树 : 
>>> fpGrowth.mineTree (myFPtree, myHeaderTab, 3, set([]), freqIitems) 


conditional tree for: set(['y']) 
Null Set 1 


Xx 3 
蔬 3 
conditional tree for: set(['y', 'z']) 
Null Set 1 
x 3 
conditional tree for: set(['s']) 
Null Set 1 
x 3 
conditional tree for: set(['t']) 
Null Set 1 
y 3 
xX 3 
世 3 
Conditional tree for: set(['x', 't']) 
Null Set 1 
y 3 
conditional tree for: set(['z', 't']) 
Null Set 1 
y 3 
x 3 
conditional tree for: set(['x', 'z', 't']) 
Null Set 1 
y 3 


Conditional tree for: set(['x']) 
Null Set 1 


包 3 
为 了 获得 类 似 于 前 面 代 码 的 输出 结果 ， 我 在 函数 mineTree () 中 添加 了 两 行 : 
print 'conditional tree for: ',newFregqSet 


myCondTree .disp (1) 


行 被 添加 到 程序 中 语句 if myHead != None: 和 mineTree() 了 水 数 调用 之 间 。 
本 下 返回 的 项 集 是 否 与 条 件 树 匹配 : 


>>> fredqILemS 
[set (['y¥']})}, set(l['y', 
set(['s']), set(['x', 's']), set 
't']), set(['y', 'x', 't']), set 
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set(['x', '2'; 't']), set([l'y', 'x', 2 't']), set(['r']), set(l'x']), 
set(['x', '2z']), set(l'z'])] 


正如 我 们 所 期 望 的 那样 ， 返 回 项 集 与 条 件 FP 树 相 匹 配 。 到 现在 为 主 ， 完 整 的 FP-growth 算 法 
已 经 可 以 运行 ， 接 下 来 在 一 个 真实 的 例子 上 看 一 下 运行 效果 。 我 们 将 看 到 是 否 能 从 微 博 网 站 
Twitter 中 获得 一 些 常 用 词 。 


12.4 示例: 在 Twitter 源 中 发 现 一 些 共 现 词 


我 们 会 用 到 一 个 叫做 python-twitter 的 Python 库 ， 其 源 代码 可 以 在 http://code.google 
com/p/ python-twitter/ 下 载 。 正 如 你 猜 到 的 那样 ， 借 助 它 ， 我 们 可 以 使 用 Python 来 访问 Twitter。 
Twitter.com 实 际 上 是 一 个 和 其 他 人 进行 交流 的 通道 ， 其 上 发 表 的 内 容 被 限制 在 140 个 字符 以 内 ， 
发 表 的 一 条 信息 称 为 推 文 ( tweet )。 

有 关 Twitter API 的 文档 可 以 在 http://dev.twitter.com/doc 找 到 。API 文 档 与 Python 模 块 中 的 关键 
词 并 不 完全 一 致 。 我 推荐 直接 阅读 Python 文件 twitterpy， 以 完全 理解 库 的 使 用 方法 。 有 关 该 模块 
的 安装 可 以 参考 附录 A。 虽 然 这 里 只 会 用 到 冰 数 库 的 一 小 部 分 ， 但 是 使 用 API 可 以 做 更 多 事情 ， 
所 以 我 歌 励 读者 去 探索 一 下 API 的 所 有 功能 。 


























示例 : 发 现 Twitter 源 中 的 共 现 词 《co-occurring word) 
(1) 收集 数据 使 用 python-twitter 模 块 来 访问 推 文 。 
(2) 准备 数据 : 编写 一 个 函数 来 去 掉 URL、 去 掉 标 点 、 转 换 成 小 写 并 从 字符 串 中 建立 一 个 
单词 集合 。 
(3) 分 析 数 据 : 在 Python 提示 符 下 查看 准备 好 的 数据 ， 确 保 它 的 正确 性 。 
(4) 训练 算法 : 使 用 本 齐 前 面 开 发 的 createTree () 与 nineTree () 函数 执行 FEP-growth 算 法 。 
(5) 测试 算法 : 这 里 不 适用 。 
(6) 使 用 算法 : 本 例 中 没有 包含 具体 应 用 ， 可 以 考虑 用 于 情感 分 析 或 者 查询 推荐 领域 。 


在 使 用 API 之 前 ， 需 要 两 个 证 书 集合 。 第 一 个 集合 是 consumer key 和 consumer secret， 当 
注册 开发 app 时 (https://dev.twitter.com/apps/new )， 可 以 从 Twitter 开发 服务 网 站 获得 。 这 些 key 
对 于 要 编写 的 app 是 特定 的 。 第 二 个 集合 是 access token key 和 access token _ secret, 它们 是 针对 
特定 Twitter 用 户 的 。 为 了 获得 这 些 key, 需要 查看 Twitter-Python 安装 包 中 的 get access token.py 
文件 (或 者 从 Twitter 开发 网 站 中 获得 )。 这 是 一 个 命令 行 的 Python 脚本 , 该 脚本 使 用 OAuth 来 告 
诉 Twitter 应 用 程序 具有 用 户 的 权限 来 发 布 信息 。 一旦 完成 上 述 工 作 之 后 ， 可 以 将 获得 的 值 放 入 
剖面 的 代码 中 开始 工作 。 对 于 给 定 的 搜索 词 ， 下 面 要 使 用 FP-growth 算 法 来 发 现 推 文中 的 频繁 
单词 集合 。 要 提取 尽 可 能 多 的 推 文 ( 1400 条 ) 然后 放 到 FP-growth 算 法 中 运行 。 将 下 面 的 代码 
添加 到 fpGrowth.py 文 件 中 。 
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程序 清单 12-6 ”访问 Twitter Python 库 的 代码 


import twitter 
from time import sleep 
import re 


def getLotsOfTweets (searchstr): 


CONSUMER KEY = 'get When you create an app' 

CONSUMER SECRET = 'get When you create an app' 

ACCESS TOKEN KEY = 'get from Oauth, specific to a user' 
ACCESS TOKEN SECRET = 'get from Oauth, specific to a user' 


api = twitter.Api (consumer key=CONSUMER KEY ， 
Consumer secret=CONSUMER SECRET, 
access token key=ACCESS TOKEN KEY, 
access token secret=ACCESS TOKEN SECRET ) 
#you can get 1500 results 15 pages * 100 per page 
resultspPpages = [] 
for i in range (1,15): 
print "fetching page %d" % 1 


searchResults = api.GetSearch (searchstr, per page=100, page=i) 
resultspages.append (searchResults) 
sleep (6) 


return resultspPpages 


这 里 需要 导入 三 个 库 ， 分 别 是 twitter 库 、 用 于 正则 表达 式 的 库 ， 以 及 sleep 羡 数 。 后 面 会 
使 用 正则 表示 式 来 帮助 解析 文本 。 

国 数 getLotsofTweets () 处 理 认证 然后 创建 一 个 空 列表 。 搜 索 API 可 以 一 次 获得 100 条 推 
文 。 每 100 条 推 文 作 为 一 页 ， 而 Twitter 允许 一 次 访问 14 页 。 在 完成 搜索 调用 之 后 ， 有 一 个 6 秒 钟 的 
睡眠 延迟 ， 这 样 做 是 出 于 礼 狐 ， 避 免 过 于 频繁 的 访问 请 求 。print 语 句 用 于 表明 程序 仍 在 执行 没 
有 和 死 抒 。 

下 面 来 抓 取 一 些 推 文 ， 在 Python 提示 人 符 下 输入 : 


>>> reload (fpGrowth) 
<module 'fpGrowth' from 'fpGrowth.py'> 


接 下 来 要 搜索 一 文 名 为 RIMM 的 股票 : 


>>> lotsOtweets = fpGrowth.getLotsOfTweets('RIMM') 
fetching page 1 
fetching page 2 

















lotsOtweets 列 表 包 含 14 个 子 列表 ， 每 个 子 列表 有 100 条 推 文 。 可 以 输入 下 面 的 命令 来 查看 推 文 
的 内 容 : 
>>> lotsOtweets[0] [4] .text 


UIRIM: Open The Network, Says ThinkEquity: In addition, RIMM needs to 
reinvent its image, not only demonstrating ... http://bit.ly/l1vlVi1iU" 


正如 所 看 到 的 那样 ， 有些 人 会 在 推 文 中 放 入 URL。 这样 在 解析 时 ,结果 就 会 比较 乱 。 因 此 必须 去 
挥 URL, 以 便 可 以 获得 推 文中 的 单词 。 下 面 程序 清单 中 的 一 部 分 代码 用 来 将 推 文 解析 成 子 符 串 列 
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表 ， 为 一 部 分 会 在 数据 集 上 运行 FP-growth 算 法 。 将 下 面 的 代码 添加 到 fpGrowth.py 文 件 中 。 
程序 清单 12-7 文本 解析 及 合成 代码 


def textpParse (bigString): 


urlsRemoved = re.sub(' (http[s]?:[/][/] |www.) ([a-z] | [A-2] | [0-9] | [/ 
.] | [~])*', 
'', bigSstring) 
listOfTokens = re.split (r'\W*', urlsRemoved) 


return [tok.lower() for tok in listOfTokens if len(tok) > 2| 


def mineTweets (tweetArr, minSup=5): 
parsedList = 上 [] 
for i in range (14) : 
for Jj in range(100): 
parsedList.append (textParse (tweetArr [i|] [j|] .text)) 


initSet = createInitSet (parsedList) 

myFPtree, myHeaderTab = createTree (initSet, minSup) 
myFreqList = [|] 

mineTree (myFPtree, myHeaderTab, minSup, set([]), myFreqList) 


return myFreqList 

上 上述 程 序 清 单 中 的 第 一 个 图 数 来 和 目 第 4 蔓 ， 此 外 这 里 添加 了 一 行 代码 用 于 去 除 URL。 这 里 通 
过 调用 正则 表达 式 模 块 来 移 除 任何 URL。 程 序 清 单 12-7 中 的 另 一 个 函数 mineTweets () 为 每 个 推 
文 调用 textParse。 最 后 ,，mineTweets() 限 数 将 12.2 市 中 用 过 的 命令 封 汐 到 一 起 ,来 构建 FP 树 
并 对 其 进行 挖 据 。 最 后 返回 所 有 频繁 项 集 组 成 的 列表 。 

下 面 看 看 运行 的 效果 : 

>>> reload (fpGrowth) 

<module 'fpGrowth' from 'fpGrowth.py'> 

Let’s look for sets that occur more than 20 times: 

>>> listOfTerms = fpGrowth.mineTweets (lotsOtweets, 20) 

How many sets occurred in 20 or more of the documents? 


>>> len (listOfTerms) 
455 


我 写 这 段 代码 的 前 一 天 ， 一 家 以 RIMM 股 票 代 码 进行 交易 的 公司 开 了 一 次 电话 会 议 ， 会 议 
并 没有 令 投 资 人 满意 。 该 股 开盘 价 相对 前 一 天 封 盘 价 暴跌 22%。 下 面 看 下 上 述 情况 是 否 在 推 文 
中 体现 : 


>>> for t in listOfTerms: 


























print 七 
set([u'rimm', u'day'l]) 
set([u'rimm', u'earnings']) 
set([u'pounding', u'value'l]) 


([ 
([ 
([ 
Set ( [upounding'，UIovVernight '] ) 
([ 
([ 
([ 


set([u'pounding', u'drops']) 
set([u'pounding', u'shares']) 
set([u'pounding', u'are']) 
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set ([u'overnight']) 
set([u'drops', u'overnight']) 
([ 


set([u'motion', u'drops', u'overnight']) 

set([u'motion', u'drops', u'overnight', u'value'l]) 
set([u'drops', u'overnight', u'research'|]) 

set([u'drops', u'overnight', u'value', u'research'|]) 
set([u'motion', u'drops', u'overnight', u'value', u'research']) 
set([u'motion', u'drops', u'overnight', u'research'|]) 


set([u'drops', u'overnight', u'value']) 
尝试 一 些 其 他 的 minsupport 值 或 者 搜索 词 也 是 蛋 有 趣 的 。 

我 们 还 记得 FP 树 的 构建 是 通过 每 次 应 用 一 个 实例 的 方式 来 完成 的 这 里 假设 已 经 获得 了 所 有 
数据 ， 所 以 刚才 是 直接 遍历 所 有 的 数据 来 构建 FP 树 的 。 实 际 上 可 以 重 写 createTree () 困 数 ,每 
次 读 入 一 个 实例 , 并 随 着 Twitter 流 的 不 断 输入 而 不 断 增长 树 。FP-growth 算 法 还 有 一 个 map-reduce 
版 本 的 实现 ,， 它 也 很 不 错 ， 可 以 扩展 到 多 台 机 顺 上 运行 。Google 使 用 该 算法 通过 遍历 大 量 文 本 来 
发 现 频繁 共 现 词 ， 其 做 法 和 我 们 刚才 介绍 的 例子 非常 类 似 ”。 


12.5 示例 : 从 新 闻 网 站 后 击 流 中 挖掘 


好 了 ， 本 和 草 的 最 后 一 个 例子 很 酷 ， 而 你 有 可 能 正在 想 :“ 伙 计 ， 这 个 算法 应 该 很 快 ， 因 为 只 
有 1400 条 推 文 ! ”你 的 想法 是 正确 的 。 下 面 在 更 大 的 文件 上 看 下 运行 效 末 。 在 源 数 据 集合 中 ， 有 
一 个 kosarak.dat 文 件 ， 它 包含 将 近 100 万 条 记录 *"。 该 文件 中 的 每 一 行 包含 某 个 用 户 浏览 过 的 新 闻 
报道 。 一 些 用 户 只 看 过 一 遍 报 站 ， 而 有 些 用 户 看 过 2498 饥 报道 。 用 户 和 报 赴 被 编码 成 整 效 ， 所 以 
查看 频 或 项 集 很 难得 到 更 多 的 东西 ， 但 是 该 数据 对 于 展示 FP-growth 算 法 的 速度 十 分 有 效 。 

自 完 ， 将 数据 集 叶 入 到 列表 : 

>>> parsedDat = [line.split() for line in open('kosarak.dat') .readlines ()] 
接 下 来 需要 对 初始 集合 格式 化 : 

>>> initSet = fpGrowth.createInitSet (parsedDat) 
然后 构建 FP 树 ， 并 从 中 寻找 那些 至 少 被 10 万 人 浏览 过 的 新 闻 报道 。 

>>> myFPtree, myHeaderTab = fpGrowth.createTree (initset, 100000) 

在 我 这 台 简 陋 的 笔记 本 电脑 上 ,构建 树 以 及 扫描 100 万 行内 需要 几 秒 钟 ， 这 展示 了 FP-growth 
算法 的 强大 威力 。 下 面 需要 创建 一 个 空 列表 来 保存 这 些 频繁 项 集 : 


>>> myFreqList = [] 
>>> fpGrowth.mineTree (myFPtree, myHeaderTab, 100000, set([]), myFreqList) 


接 下 来 看 下 有 多 少 新 闻 报道 或 报 违 集合 曾经 被 10 万 或 者 更 多 的 人 浏 贤 过 : 





















































(QD) H. Li, Y. Wang, D. Zhang, M. Zhang, E. Chang, “PFP: Parallel FP-Growth for Query Recommendation,” RecSys’08, Proceedings of 
the 2008 ACM Conference on Recommender Systems; http://infolab.stanford.edu/~ echang/recsys08-69.pdf. 
@) Hungarian online news portal clickstream retrieved July 11, 2011; from Frequent Itemset Mining Dataset Repository, 


http://fimi.ua.ac.be/data/, donated by Ferenc Bodon. 
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>>> len (myFreqList,) 
9 


总 共有 9 个 。 下 面 看 看 神 是 哪些 : 


>>> myFreqList 
[set (['1']), set(['1', '6']), set(['3']), set(['11', '3' 
'6']), set(['3', '6']), set(['11']), set(['11', '6']), set(['6'])] 


可 以 使 用 其 他 设置 来 查看 运行 结 有 末 ， 比 如 降低 置信 和 度 级 别 。 


12.6 ”本 章 小 结 


FP-growth 算 法 是 一 种 用 于 发 现 数据 集中 频繁 模式 的 有 效 方法 。FP-growth 算 法 利用 Apriori 原 
则 ,执行 更 快 。Apriori 算 法 产生 候选 项 集 ， 然 后 扫描 数据 集 来 检查 它们 是 否 频 繁 。 由 于 只 对 数据 
集 扫 摘 两 次 ， 因 此 FP-growth 算 法 执行 更 快 。 在 FP-growth 算 法 中 ， 数 据 集 存储 在 一 个 称 为 FP 树 的 
结构 中 。FP 树 构建 完成 后 ， 可 以 通过 查找 元 素 项 的 条 件 基 及 构建 条 件 FP 树 来 发 现 频 繁 项 集 。 该 
过 程 不 断 以 更 多 元 素 作 为 条 件 重复 进行 ， 直 到 FP 树 只 包含 一 个 元 素 为 止 。 

可 以 使 用 FP-growth 算 法 在 多 种 文本 文档 中 查找 频繁 单词 ,Twitter 网 站 为 开发 者 提供 了 大 量 的 
API 来 使 用 他 们 的 服务 。 利 用 Python 模 块 python-Twitter 可 以 很 容易 访问 Twitter。 在 Twitter 源 
上 对 某 个 话题 应 用 FP-growth 算 法 ， 可 以 得 到 一 些 有 关 该 话题 的 摘要 信息 。 频 党 项 集 生成 还 有 其 
他 的 一 些 应 用 ， 比 如 购物 交易 、 医 学 诊断 及 大 气 人 研究 等 。 

下 面 几 章 会 介绍 一 些 附属 工具 。 第 13 章 和 第 14 章 会 介绍 一 些 降 维 技术 , 使 用 这 些 技术 可 以 提 
炼 数据 中 的 重要 信息 并 且 移 除 噪声 。 第 14 章 会 介绍 Map Reduce 技 术 ,， 当 数据 量 超过 单 台 机 需 的 处 
理 能 力 时 ， 将 会 需要 这 些 技术 。 
































其 他 工具 





本 书 第 四 部 分 即 是 最 后 一 部 分 ， 主 要 介绍 在 机 器 学 习 实 践 时 和 常用 的 一 些 其 他 工具 ， 它 们 可 
以 应 用 于 前 三 部 分 的 算法 上 。 这 些 工 具 还 包括 了 可 以 对 前 三 部 分 中 任 一 算法 的 输入 数据 进行 预 
处 理 的 降 维 技术 。 这 一 部 分 还 包括 了 在 上 千 台 机 器 上 分 配 作 业 的 Map Reduce 技术 。 

降 维 的 目标 就 是 对 输入 的 数目 进行 前 减 ， 由 此 上 剔除 数据 中 的 噪声 并 提高 机 絮 学 习 方 法 的 性 
能 。 第 13 章 将 介绍 按照 数据 方差 最 大 方向 调整 数据 的 主 成 分 分 析 降 维 方 法 。 第 14 章 解 释 奇 异 
值 分 解 ， 它 是 矩阵 分 解 技术 中 的 一 种 ， 通 过 对 原始 数据 的 逼近 来 达到 降 维 的 目的 。 

第 15 章 是 本 书 的 最 后 一 章 ， 主 要 讨论 了 在 大 数据 下 的 机 屁 学 习 。 大 数据 (big data) 指 的 
就 是 数据 集 很 大 以 至 于 内 存 不 足以 将 其 存放 。 如 果 数 据 不 能 在 内 存 中 存放 ， 那 么 在 内 存 和 磁盘 
之 加 传输 数据 时 就 会 良 费 大 量 的 时 间 。 为 了 避免 这 一 点 ， 我 们 就 可 以 将 整个 作业 进行 分 片 ， 这 
样 就 可 以 在 多 机 下 进行 并 行 处 理 。Map Reduce 就 是 实现 上 述 过 程 的 一 种 流行 的 方法 ， 它 将 作业 
分 成 了 Map 任务 和 Reduce 任务 。 15 草 将 介绍 Python 中 Map Reduce 实现 的 一 些 和 常用 工具 ， 
同时 也 介绍 了 将 机 器 学 习 转 换 成 满足 Map Reduce 编程 范式 的 方法 。 
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本 章 内 容 

口 降 维 技术 

口 主 成 分 分 析 (PCA ) 

口 对 半导体 数据 进行 降 维 处 理 











想象 这 样 一 种 场景 : 我 们 正 通过 电视 而 非 现 场 观 看 体育 比赛 , 在 电视 的 纯 平 显 示 天 上 有 一 个 
球 。 显 示 融 大 概 包 含 了 100 万 像 系 ， 而 球 则 可 能 是 由 较 少 的 像素 组 成 的 ， 比 如 说 一 千 个 像素 。 在 
大 部 分 体育 比赛 中 , 我 们 关注 的 是 给 定时 刻 球 的 位 置 。 人 的 大 脑 要 想 了 解 比 赛 的 进展 ， 就 需要 了 
解 球 在 运动 场 中 的 位 置 。 对 于 人 来 说 ， 这 一 切 显 得 十 分 日 然 , 其 至 都 不 需要 做 任何 思考 。 在 这 个 
场景 当中 ， 人 们 实时 地 将 显示 右上 的 百 万 像 条 转换 成 为 了 一 个 三 维 图 像 , 该 图 像 就 给 出 了 运动 场 
上 球 的 位 置 。 在 这 个 过 程 中 ， 人 们 已 经 将 数据 从 一 百 万 维 降 至 了 三 维 。 

在 上 述 体育 比赛 的 例子 中 , 人 们 面 对 的 原本 是 百 万 像素 的 数据 , 但 是 只 有 球 的 三 维 位 置 才 最 
重要 ， 这 就 被 称 为 降 维 ( dimensionality reduction )。 刚 才 我 们 将 超 百 万 的 数据 值 降 到 了 只 有 三 个 
相关 值 。 在 低 维 下 ， 数 据 更 容易 进行 处 理 。 为 外 ， 其 相关 特征 可 能 在 数据 中 明确 地 显示 出 来 。 通 
津 而 言 ， 我 们 在 应 用 其 他 机 带 学 习 算 法 之 前 ， 必 须 先 识别 出 其 相关 特征 。 

本 章 是 涉及 降 维 主题 的 两 章 中 的 第 一 章 。 在 降 维 中 ,我 们 对 数据 进行 了 预 处 理 。 之 后 ， 采 用 
其 他 机 覃 学 习 技术 对 其 进行 处 理 。 本 章 一 开始 对 降 维 技术 进行 了 综述 , 然后 集中 介绍 一 种 应 用 非 
党 普遍 的 称 为 主 成 分 分 析 的 技术 。 最 后 ， 我 们 就 通过 一 个 数据 集 的 例子 来 展示 PCA 的 工作 过 程 。 
经 过 PCA 处 理 之 后 ， 该 数据 集 就 从 590 个 特征 降低 到 了 6 个 特征 。 


13.1 降 维 技术 


始终 贯穿 本 书 的 一 个 难题 就 是 对 数据 和 绪 末 的 展示 , 这 是 因为 这 本 书 只 是 二 维 的 , 而 在 通常 
的 情况 下 我 们 的 数据 不 是 如 此 。 有 时 我 们 会 显示 三 维 图像 或 者 只 显示 其 相关 特征 , 但 是 数据 往往 
拥有 超出 显示 能 力 的 更 多 特征 。 数 据 显 示 并 非 大 规模 特征 下 的 唯一 难题 ， 对 数据 进行 和 商 化 还 有 如 
下 一 系列 的 原因 : 

口 使 得 数据 集 更 易 使 用 ; 
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口 降低 很 多 算法 的 计算 开销 ; 

口 去 除 噪 声 ; 

口 使 得 结果 多 懂 。 

在 已 标注 与 未 标注 的 数据 上 都 有 降 维 技术 。 这 里 我 们 将 主要 关注 未 标注 数据 上 的 降 维 技术 ， 
该 技术 同时 也 可 以 应 用 于 已 标注 的 数据 。 

第 一 种 降 维 的 方法 称 为 主 成 分 分 析 (Principal Component Analysigs，PCA )。 在 PCA 中 ， 数 据 
从 原来 的 坐标 系 转换 到 了 新 的 坐标 系 , 新 坐标 系 的 选择 是 由 数据 本 里 决定 的 。 第 一 个 新 坐标 轴 选 
择 的 是 原始 数据 中 方差 最 大 的 方 问 , 第 二 个 新 坐标 轴 的 选择 和 第 一 个 坐标 轴 正 交 且 具有 最 大 方差 
的 方向 。 该 过 程 一 二 重复 ,重复 次 数 为 原始 数据 中 特征 的 数目 。 我 们 会 发 现 ， 大 部 分 方差 都 包含 
在 最 前 面 的 几 个 新 坐标 轴 中 。 因 此 , 我 们 可 以 忽略 余下 的 坐标 轴 ， 即 对 数据 进行 了 降 维 处 理 。 在 
13.2 节 我 们 将 会 对 PCA 的 细节 进行 深入 介绍 。 

另外 一 种 降 维 技术 是 因子 分 析 (Factor Analysis )。 在 因子 分 析 中 ， 我 们 假设 在 观察 数据 的 生 
成 中 有 一 些 观察 不 到 的 隐 变 量 ( latent variable )。 假 设 观 察 数据 是 这 些 隐 变量 和 某 些 噪声 的 线性 
组 合 。 那么 隐 变 量 的 数据 可 能 比 观察 数据 的 数目 少 , 也 就 是 说 通过 找到 隐 变 量 就 可 以 实现 数据 的 
降 维 。 因 子 分 析 已 经 应 用 于 社会 科学 、 金 融和 其 他 领域 中 了 。 

还 有 一 种 降 维 技术 就 是 独立 成 分 分 析 ( Independent Component Analysis，ICA )。ICA 假 设 数 
据 是 从 N 个 数据 源 生成 的 , 这 一 点 和 因子 分 析 有 些 类 似 。 假设 数据 为 多 个 数据 源 的 混合 观察 结果 ， 
这 些 数据 源 之 间 在 统计 上 是 相互 独立 的 ， 而 在 PCA 中 只 假设 数据 是 不 相关 的 。 同 因子 分 析 一 样 ， 
如 果 数 据 源 的 数目 少 于 观察 数据 的 数目 ， 则 可 以 实现 降 维 过 程 。 

在 上 述 3 种 降 维 技术 中 ，PCA 的 应 用 目前 最 为 广泛 ， 因 此 本 和 草 主 要 关注 PCA。 在 下 一 中 ， 
我 们 将 会 对 PCA 进 行 介绍 ， 然 后 再 通过 一 段 Python 代码 来 运行 PCA 。 









































13.2 PCA 


主 成 分 分 析 
优点 : 降低 数据 的 复杂 性 ， 识 别 最 重要 的 多 个 特征 。 
缺点 : 不 一 定 需 要 ， 且 可 能 损失 有 用 信息 。 
适用 数据 类 型 : 数值 型 数据 。 


首先 我 们 讨论 PCA 硝 后 的 一 些 理论 知识 ， 然 后 介绍 如 何 通 过 Python 的 NumPy 来 实现 PCA 。 


13.2.1 移动 坐标 轴 

考虑 一 下 图 13-1 中 的 大 量 数 据点 。 如 果 要 求 我 们 画 出 一 条 直线 , 这 条 线 要 尽 可 能 履 羡 这些 点 ， 
那么 最 长 的 线 可 能 是 哪 条 ? 我 做 过 多 次 尝试 。 在 图 13-1 中 ，3 条 直线 中 B 最 长 。 在 PCA 中 ， 我 们 对 
数据 的 坐标 进行 了 旋转 , 该 旋转 的 过 程 取决 于 数据 的 本 身 。 第 一 条 坐标 轴 旋 转 到 有 履 盖 数据 的 最 大 
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方差 位 置 ， 即 图 中 的 直线 B。 数 据 的 最 大 方差 给 出 了 数据 的 最 重要 的 信息 。 

在 选择 了 黎 兰 数据 最 大 差异 性 的 坐标 轴 之 后 ， 我 们 选择 了 第 二 条 坐标 轴 。 假 如 该 坐标 轴 与 第 
一 条 坐标 轴 垂 直 , 它 就 是 履 善 数据 次 大 差异 性 的 坐标 轴 。 这 里 更 严谨 的 说 法 就 是 正 交 ( orthogonal )。 
当然 ,在 二 维 平 而 下 ， 垂直 和 正 交 是 一 回 事 。 在 图 13-1 中 ， 下 线 C 就 是 第 二 条 坐标 轴 。 利 用 PCA， 
我 们 将 数据 坐标 轴 旋 转 至 数据 角度 上 的 那些 最 重要 的 方向 。 























图 13-1 图 关 整 个 数据 集 的 三 条 直线 ， 其 中 百 线 B 最 长 ， 并 给 出 了 数据 集中 差异 化 最 大 的 方 回 


我 们 已 经 实现 了 坐标 轴 的 旋转 , 接 下 来 开始 讨论 降 维 。 坐 标 轴 的 旋转 并 没有 减少 数据 的 维度 。 
考虑 图 13-2， 其 中 包含 着 3 个 不 同 的 类 别 。 要 区 分 这 3 个 类 别 ， 可 以 使 用 决策 树 。 我 们 还 记得 决策 
树 每 次 都 是 基于 一 个 特征 来 做 决策 的 。 我 们 会 发 现 ， 在 x 轴 上 可 以 找到 一 些 值 ， 这 些 值 能 够 很 好 
地 将 这 3 个 类 别 分 开 。 这 样 ， 我们 就 可 能 得 到 一 些 规则 ， 比 如 当 (x<4) 时 ,数据 属于 类 别 0。 如 果 
使 用 SVM 这 样 稍微 复杂 一 点 的 分 类 闫 ,我 们 就 会 得 到 更 好 的 分 类 面 和 分 类 规则 ， 比 如 当 (wOx*x + 
wlxy + b) > 0 时 ， 数 据 也 属于 类 别 0。SVM 可 能 比 决策 树 得 到 更 好 的 分 类 间隔 ， 但 是 分 类 超 平 
面 却 很 难 解释 。 

通过 PCA 进 行 降 维 处 理 , 我 们 就 可 以 同时 获得 SVM 和 决策 树 的 优点 : 一 方面 , 得 到 了 和 决策 
树 一 样 简单 的 分 类 需 ， 同 时 分 类 间隔 和 SVM 一 样 好 。 考察 网 13-2 中 下 面 的 网 ,其 中 的 数据 来 自 于 
上 面 的 网 并 经 PCA 转 换 之 后 绘制 而 成 的 。 如 果 仅 使 用 原始 数据 , 那么 这 里 的 间隔 会 比 决策 树 的 间 
隔 更 大 。 另 外 , 由 于 只 需要 考虑 一 维 信 息 , 因此 数据 就 可 以 通过 比 SVM 人 简单 得 多 的 很 容易 采用 的 
规则 进行 区 分 。 
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图 13-2 ”二 维 空间 的 3 个 类 别 。 当 在 该 数据 集 上 应 用 PCA 时 ， 就 可 以 去 掉 一 维 ， 从 而 使 得 该 
分 类 问题 变 得 更 容易 处 理 











在 图 13-2 中 ， 我 们 只 需要 一 维 信息 即 可 ， 因 为 为 一 维 信息 只 是 对 分 类 缺乏 页 献 的 噪声 数据 。 
在 二 维 平面 下 ， 这 一 点 看 上 去 微不足道 ， 但 是 如 来 在 高 维 空间 下 则 意义 重大 。 

我 们 已 经 对 PCA 的 基本 过 程 做 出 了 简单 的 曾 述 ,， 接 下 来 就 可 以 通过 代码 来 实现 PCA 过 程 。 前 
面 我 曾 提 到 的 第 一 个 主 成 分 就 是 从 数据 差 卉 性 最 大 〈 即 方差 最 大 ) 的 方 回 提 取出 来 的 , 第 二 个 主 
成 分 则 来 目 于 数据 差异 性 次 大 的 方 问 , 并 且 该 方 四 与 第 一 个 主 成 分 方 回 正 交 。 通 过 数据 集 的 协 方 
差 官 阵 及 其 特征 值 分 机 ， 我 们 束 可 以 求 得 这 些 主 成 分 的 值 。 

一 旦 得 到 了 协 方差 矩阵 的 特征 回 量 ， 我 们 就 可 以 保留 最 大 的 N 个 值 。 这 些 特征 回 量 也 给 出 了 
N 个 最 重要 特征 的 真实 结构 。 我 们 可 以 通过 将 数据 乘 上 这 WN 个 特征 问 量 而 将 它 转换 到 新 的 空间 。 




















特征 值 分 析 
特征 值 分 析 是 线性 代数 中 的 一 个 领域 ， 它 能 够 通过 数据 的 一 般 格式 来 揭示 数据 的 “真实 ” 
结构 ， 即 我 们 第 说 的 特征 向 量 和 特征 值 。 在 等 式 Av = Xv 中 ,是 特征 向 量 ， 入 是 特征 值 。 特 
征 值 都 是 简单 的 标量 值 ， 因 此 Av = 和 v 代 表 的 是 : 如 果 特 征 向 量 v 被 某 个 矩阵 A 左 乘 ， 那 么 它 就 
等 于 某 个 标量 和 乘 以 v。 幸 运 的 是 ，NumPy 中 有 寻找 特征 向 量 和 特征 值 的 模块 1inalg， 它 有 
eig() 方 法 ， 该 方法 用 于 求解 特征 向 量 和 特征 值 。 
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13.2.2 ”在 NumpPy 中 实现 PCA 


将 数据 转换 成 前 N 个 主 成 分 的 伪 码 大 致 如下: 
去 除 平均 值 

计算 协 方差 矩阵 

计算 协 方差 矩阵 的 特征 值 和 特征 向 量 

将 特征 值 从 大 到 小 排序 

保留 最 上 面 的 N 个 特征 向 量 

将 数据 转换 到 上 述 N 个 特征 向 量 构建 的 新 空间 中 


建立 一 个 名 为 pca.py 的 文件 并 将 下 列 代 码 加 入 用 于 计算 PCA。 
程序 清单 13-1 PCA 算 法 


from numpy import * 
def loadDataset (fileName, delim='\t'): 
fr = open (fileName) 
stringArr = [line.strip() .split (delim) for line in fr.readlines()] 


datArr = [map (float,1line) for line in stringArr] 
return mat (datArr) 


def pca(dataMat, topNfeat=9999999): 


meanVvals = mean (dataMat, axis=0) -9 去 平均 值 
meanRemoved = dataMat - meanVals 

CovMat = cov (meanRemoved, rowvar=0) 

eigVvals,eigVects = linalg.eig (mat (covMat)) 

eigVvalInd = argsort (eigVals) 从 小 到 大 对 NN 个 值 排序 
eigVvalInd = eigValInd[:- (topNfeat+1):-1] 

redEigVects = eigVects[:,eigValInd] 


lowDDataMat = meanRemoved * redEigVects 


reconMat = (lowDDataMat * redEigVects.T) + meanVvals ©@ 将 数据 转换 到 新 空间 
return lowDDataMat, reconMat 


程序 清单 13-1 中 的 代码 包含 了 通常 的 NumPy 导 入 和 loadDataSet () 图 数 。 这 里 的 1oad- 
DataSet () 图 数 和 前 面 章 节 中 的 版 本 有 所 不 同 , 因为 这 里 使 用 了 两 个 list comprehension 来 构建 算 阵 。 

pca() 困 数 有 两 个 参数 : 第 一 个 参数 是 用 于 进行 PCA 操 作 的 数据 集 ， 第 二 个 参数 topNfeat 
则 是 一 个 可 选 参 数 , 即 应 用 的 N 个 特征 ,如果 不 指 定 topNfeat 的 值 ,那么 函数 就 会 返回 前 9 999 999 
个 特征 ， 或 者 原始 数据 中 全 部 的 特征 。 

首先 计算 并 减 去 原始 数据 集 的 平均 值 @。 然 后， 计算 协 方差 矩阵 及 其 特征 值 ， 接 着 利用 
argsort() 归 数 对 特征 值 进 行 从 小 到 大 的 排序 。 根 据 特征 值 排序 结果 的 逆序 就 可 以 得 到 
topNfeat 个 最 大 的 特征 向 量 @。 这 些 特征 向 量 将 构成 后 面 对 数 据 进行 转换 的 矩阵 ， 该 矩 阵 则 利 
用 N 个 特征 将 原始 数据 转换 到 新 空间 中 个 。 最 后 ， 原 始 数据 被 重 构 后 返回 用 于 调试 ， 同 时 降 维 之 
后 的 数据 集 也 被 返回 了 。 

一 切 都 看 上 去 不 错 ,是 不 是 ” 在 进入 规模 更 大 的 例子 之 前 , 我 们 先 看 看 上 面 代码 的 运行 效果 
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以 确保 其 结果 正确 无 误 。 
>>> import pca 
我 们 在 testSet.txt 文 件 中 加 入 一 个 由 1000 个 数据 点 组 成 的 数据 集 , 并 通过 如 下 命令 将 该 数据 集 
调和 内存 : 
>>> dataMat = pca.loadDataSet ('testSet.txt') 
于 是 ， 我 们 就 可 以 在 该 数据 集 上 进行 PCA 操 作 : 
>>> lowDMat, reconMat = pca.pca(dataMat, 1) 
lowDMat 包 含 了 降 维 之 后 的 矩阵 ， 这 里 是 个 一 维和 矩阵 ， 我 们 通过 如 下 命令 进行 检查 : 


>>> Shape (lowDMat,) 
(1000, 1) 
我 们 可 以 通过 如 下 命令 将 降 维 后 的 数据 和 原始 数据 一 起 绘制 出 来 : 
>>> import matplotlib 
>>>import matplotlib.pyplot as plt 
fig = plt.figure() 
ax = fig.add subplot (111) 
>>> ax.sScatter(dataMat[:,0|] .flatten().A[0], dataMat [:,1] .flatten().A[O0], 


marker='^'!, s=90) 

<matplotlib.collections.PathCollection object at Ox029B5C50> 

>>> ax.Scatter(reconMat [:,0] .flatten().A[0], reconMat[:,1|] .flatten().A[O0O], 
marker='0', SsS=50, C='red') 


<matplotlib.collections.PathCollection object at 0x0372A210>plt .show() 
我 们 应 该 会 看 到 和 图 13-3 类 似 的 结 末 。 使 用 如 下 命令 来 蔡 换 原来 的 PCA 调 用 ， 并 重复 上 述 过 程 : 

>>> lowDMat, reconMat = pca.pca(dataMat，2) 

妹 然 没有 别 除 任何 特征 ， 那 么 重 构 之 后 的 数据 会 和 原始 的 数据 重合 。 我 们 也 会 看 到 和 图 13-3 
类 似 的 结 末 (不 包含 图 13-3 中 的 和 卫 线 )。 


6 





—4 





图 13-3 ”原始 数据 集 (三 角形 点 表示 ) 及 第 一 主 成 分 ( 圆 形 点 表示 ) 
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13.3 示例: 利用 PCA 对 半导体 制造 数据 降 维 


半导体 是 在 一 些 极为 先进 的 工厂 中 制造 出 来 的 。 工厂 或 制造 设备 不 仪 需 要 花费 上 亿美 元 , 而 
日 还 需要 大 量 的 工人 。 制造 设备 仪 能 在 儿 年 内 保持 其 先进 性 ,随后 就 必须 更 换 了 。 单 个 集成 电路 
的 加 工时 间 会 超过 一 个 月 。 在 设备 生命 期 有 限 , 花费 又 极其 巨大 的 情况 下 ,制造 过 程 中 的 每 一 秒 
钟 都 价值 巨大 。 如 采制 造 过 程 中 存在 瑕 普 ， 我 们 就 必须 尽早 发 现 ， 从 而 确保 宝 贯 的 时 间 不 会 花费 
在 缺陷 产品 的 生产 上 。 

一 些 工 程 上 的 通用 解决 方案 是 通过 早期 测试 和 频 索 测试 来 发 现 有 缺陷 的 产品 , 但 仍然 有 一 些 
存在 瑕 辛 的 产品 通过 了 测试 。 如 采 机 楷 学 习 技术 能 够 用 于 进一步 减少 错误 , 那么 它 就 会 为 制造 商 
节省 大 量 的 资金 。 

接 下 来 我 们 将 考察 面 加 上 述 任务 中 的 数据 集 ,， 而 它 也 比 前 面 使 用 的 数据 集 更 大 , 并 且 包 含 了 
许多 特征 。 具 体 地 讲 ， 它 拥有 590 个 特征 ”。 我 们 看 看 能 和 否 对 这 些 特 征 进 行 降 维 处 理 。 读 者 也 可 以 
通过 http://archive.ics.uci.edu/ml/machine-learning-databases/secom/ 得 到 该 数据 集 。 

该 数据 包含 很 多 的 缺失 值 。 这 些 缺 失 值 是 以 NaN ( Not a Number 的 缩写 ) 标识 的 。 对 于 这 些 
缺失 值 ， 我 们 有 一 些 处 理 办 法 〈 人 参考 第 $ 章 )。 在 590 个 特征 下 ， 几 乎 所 有 样本 都 有 NaN， 因 此 去 
除 不 完整 的 样本 不 太 现 实 。 尽 管 我 们 可 以 将 所 有 的 NaN 蔡 换 成 0， 但 是 由 于 并 不 知道 这 些 信 的 意 
义 ， 所 以 这 样 做 是 个 下 策 。 如 采 它 们 是 开 氏 温度 ， 那 么 将 它们 置 成 0 这 种 处 理 策略 就 太 差 劲 了 。 
下 面 我 们 用 平均 值 来 代 蔡 缺失 什 ， 平 均值 根据 那些 非 NaN 得 到 。 

将 下 列 代 码 添 加 到 pca.py 文 件 中 。 


程序 清单 13-2 ”将 NaN 符 换 成 平均 值 的 函数 
def replaceNanWithMean () : 


datMat = loadDataSet('secom.data', ' ') 计算 所 有 非 NaN 的 平均 值 
numFeat = shape (datMat) [1] 
for i in range (numFeat): 
































meanVval = mean (datMat [nonzero(~isnan (datMat [:,i] .A))[0] ,i]) 
datMat [nonzero(isnan (datMat [:,i] .A)) [0],i] = meanVal 
return datMat 将 所 有 NaN 置 为 平均 值 





上 上 述 代 码 首 先 打开 了 数据 集 并 计算 出 了 其 特征 的 数目 , 然后 再 在 所 有 的 特征 上 进行 循环 。 对 
于 每 个 特征 ， 首 先 计算 出 那些 非 NaN 值 的 平均 值 @@。 人 然后， 将 所 有 NaN 蔡 换 为 该 平均 值 @。 

我 们 已 经 去 除了 所 有 NaN, 接 下 来 考虑 在 该 数据 集 上 应 用 PCA。 首 先 确 认 所 需 特 征 和 可 以 去 
除 特征 的 数目 。PCA 会 给 出 数据 中 所 包含 的 信息 量 。 和 需要 特别 强调 的 是 ， 数 据 ( data ) 和 信息 
( information ) 之 间 具 有 巨大 的 差别 。 数 据 指 的 是 接受 的 原始 材料 ， 其 中 可 能 包含 噪声 和 不 相关 

















() SECOM Data Set retrieved from the UCI Machine Learning Repository: http://archive.ics.uci.edu/ml/datasets/SECOM on 
June 1, 2011. 
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言 县 。 信 息 是 指数 据 中 的 相关 部 分 。 这 些 并 非 只 是 抽象 概念 , 我 们 还 可 以 定量 地 计算 数据 中 所 包 
含 的 信息 并 决定 保留 的 比例 。 

下 面 看 看 该 如 何 实现 这 一 点 。 首 移 ， 利 用 程序 清单 13-2 中 的 代码 将 数据 集中 所 有 的 NaN 和 蔡 换 
成 平均 值 : 

dataMat = pca.replaceNanWithMean () 

接 下 来 从 pca() 函数 中 借用 一 些 代 码 来 达到 我 们 的 目的 , 之 所 以 借用 是 因为 我 们 想 了 解 中 间 
结束 而 非 最 后 输出 绪 采 。 首 移 调 用 如 下 语句 去 除 均 信 : 


meanVvals = mean (dataMat, axis=0) 
meanRemoved = dataMat - meanVals 














然后 计算 协 方差 矩阵 : 
CovMat = cov (meanRemoved, rowvar=0) 
最 后 对 该 矩阵 进行 特征 值 分 析 : 
eigVals,eigVects = linalg.eig (mat (covMat)) 





现在 ， 我 们 可 以 观察 一 下 特征 值 的 结 


>>> eigVals 


array([ 5.34151979e+07， 2.17466719e+07， 8.24837662e+06, 
2.07388086e+06, 1.31540439e+06, 4.67693557e+05, 
2.90863555e+05, 2.83668601le+05, 2.37155830e+05, 
2.08513836e+05， 1.96098849e+05, 1.86856549e+05, 
0.00000000e+00 ， 0.00000000e+00， 0.00000000e+00 ， 
0.00000000e+00 ， 0.00000000e+00， 0.00000000e+00 ， 
0.00000000e+00 ， 0.00000000e+00， 0.00000000e+00 ， 
0.00000000e+00 ， 0.00000000e+00， 0.00000000e+00 ， 
0.00000000e+00 ， 0.00000000e+00] ) 


我 们 会 看 到 一 大 堆 值 ， 但 是 其 中 的 什么 会 引起 我 们 的 注意 ? 我 们 会 发 现 其 中 很 多 值 和 都 是 0 
四 ? 实际 上 ， 其 中 有 超过 20% 的 特征 值 郡 是 0。 这 就 意味 着 这 些 特征 都 是 其 他 特征 的 副本 ， 也 就 
是 说 ,它们 可 以 通过 其 他 特征 来 表示 ， 而 本 里 并 没有 提供 额外 的 信息 。 

接 下 来 ， 我 们 了 解 一 下 部 分 数值 的 数量 级 。 最 前 面 15 个 值 的 数量 级 大 于 10- ， 实 际 上 那 以 
后 的 值 和 都 变 得 非常 小 。 这 就 相当 于 告诉 我 们 只 有 部 分 重要 特征 ， 重 要 特征 的 数目 也 很 快 就 会 
下 降 。 

最 后 ,我们 可 能 会 注意 到 有 一 些小 的 负 值 ， 它 们 主要 源 上 自 数 值 误 差 应 该 四 舍 五 入 成 0。 

在 图 13-4 中 已 经 给 出 了 总 方差 的 百分比 ， 我 们 发 现 ， 在 开始 几 个 主 成 分 之 后 ， 方 差 就 会 迅 
速 下 降 。 
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图 13-4 前 20 个 主 成 分 占 总 方差 的 百分比 。 可 以 看 出 ， 大 部 分 方差 都 包含 在 前 面 的 几 个 主 成 
分 中 , 售 弃 后 面 的 主 成 分 并 不 会 损失 太 多 的 信息 。 如 果 保 留 前 6 个 主 成 分 ， 则 数据 集 
可 以 从 590 个 特征 约 简 成 6 个 特征 ， 大 概 实现 了 100 : 1 的 压缩 
表 13-1 给 出 了 这 些 主 成 分 所 对 应 的 方差 百分比 和 累积 方差 百分比 。 浏 览 “ 累 积 方差 百分比 
(9% 了 这 一 列 就 会 注意 到 ,前 六 个 主 成 分 就 覆盖 了 数据 96.8% 的 方差 , 而 前 20 个 主 成 分 覆盖 了 99.3% 
的 方差 。 这 就 表明 了 ， 如 果 保 留 前 6 个 而 去 除 后 $84 个 主 成 分 , 我 们 就 可 以 实现 大 概 100 : 1 的 压缩 
比 。 另 外 ， 由 于 舍弃 了 噪声 的 主 成 分 ， 将 后 面 的 主 成 分 去 除 便 使 得 数据 更 加 干净 。 


表 13-1 半导体 数据 中 前 7 个 主 成 分 所 占 的 方差 百分比 




















主 成 分 方差 百分比 〈% ) 累积 方差 百分比 〈% ) 
1 59.2 59.2 
2 24.1 83.4 
3 9.2 92.5 
4 2.3 94.8 
5 本 96.3 
6 0.5 96.8 
了 0.3 97.1 
20 0.08 99.3 





于 是 , 我 们 可 以 知道 在 数据 集 的 前 面 多 个 主 成 分 中 所 包含 的 信息 量 。 我 们 可 以 答 试 不 同 的 堆 


13.4 本 章 小 结 23] 


峰值 来 检验 它们 的 性 能 。 有 些 人 使 用 能 包含 90% 信 息 量 的 主 成 分 数量 ,而 其 他 人 使 用 前 20 个 主 成 
分 。 我 们 无 法 精确 知道 所 需要 的 主 成 分 数 上 日， 必须 通过 在 实验 中 取 不 同 的 值 来 确定 。 有 效 的 主 成 
分 数目 则 取决 于 数据 集 和 具体 应 用 。 

上 述 分 析 能 够 得 到 所 用 到 的 主 成 分 数目 ,然后 我 们 可 以 将 该 数目 输入 到 PCA 算 法 中 , 最 后 得 
到 约 简 后 数据 就 可 以 在 分 类 需 中 使 用 了 。 
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降 维 技术 使 得 数据 变 得 更 易 使 用 , 并 且 它 们 往往 能 够 去 除数 据 中 的 噪声 , 使 得 其 他 机 融 学 习 
任务 更 加 精确 。 降 维 往往 作为 预 处 理 步骤 , 在 数据 应 用 到 其 他 算法 之 前 清洗 数据 。 有 很 多 技术 可 
以 用 于 数据 降 维 , 在 这 些 技术 中 , 独立 成 分 分 析 、 因 子 分 析 和 主 成 分 分 析 比 较 流 行 ， 其 中 又 以 主 
成 分 分 析 应 用 最 广泛 。 

PCA 可 以 从 数据 中 识别 其 主要 特征 ， 它 是 通过 党 着 数据 最 大 方差 方向 旋转 坐标 轴 来 实现 的 。 
选择 方差 最 大 的 方 回 作 为 第 一 条 坐标 轴 ， 后 续 坐 标 轴 则 与 前 面 的 坐标 轴 正 交 。 协 方差 矩阵 上 的 特 
征 值 分 析 可 以 用 一 系列 的 正 交 坐标 轴 来 获取 。 

本 章 中 的 PCA 将 所 有 的 数据 集 都 调 入 了 了 内存， 如果 无 法 做 到 , 就 需要 其 他 的 方法 来 寻找 其 特 
征 值 。 如 果 使 用 在 线 PCA 分 析 的 方法 ,你 可 以 参考 一 篇 优秀 的 论文 “Incremental Eigenanalysis for 
Classification”“。 下 一 章 要 讨论 的 奇异 值 分 解 方 法 也 可 以 用 于 特征 值 分 析 。 














(QD P. Hall, D. Marshall, and R. Martin, “Incremental Eigenanalysis for Classification,” Department of Computer Science, 
Cardiff University, 1998 British Machine Vision Conference, vol. 1, 286-—95; http:// citeseer.ist.psu.edu/viewdoc/ 
summary?doi=10.1.1.40.4801. 
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本 章 内 容 

口 SVD 和 矩阵 分 解 

口 推荐 引 苟 

口 利用 SVD 提 升 推荐 引 敬 的 性 能 








餐馆 可 划分 为 很 多 类 别 ， 比 如 美式 、 中 式 、 日 式 、 牛 排 馆 、 系 食 店 ， 每 等 。 你 是 否 想 过 这 些 
类 别 够 用 吗 ? 或 许 人 们 喜欢 这 些 的 混合 类 别 ,， 或 者 类 似 中 式 素 食 店 那样 的 子 类 别 。 如 何 才能 知道 
到 底 有 多 少 类 和 撩 馆 呢 ? 我 们 也 许可 以 问 问 专 家 ? 但 是 倘 奉 某 个 专家 说 应 该 按照 调料 分 类 , 而 男 一 
个 专家 则 认为 应 该 按照 配料 分 类 , 那 该 怎么 办 呢 ? 忘 了 专家 ,我 们 还 是 从 数据 看 手 吧 。 我 们 可 以 
对 记录 用 户 关 于 和 餐馆 观点 的 数据 进行 处 理 ， 并 且 从 中 提取 出 其 背后 的 因素 。 

这 些 因 系 可 能 会 与 餐馆 的 类 别 、 训 饪 时 所 用 的 某 个 特定 配料 ， 或 其 他 任意 对 象 一 致 。 然 后 ， 
我 们 就 可 以 利用 这 些 因 系 来 估计 人 们 对 没有 去 过 的 和 餐馆 的 看 法 。 

提取 这 些 信 息 的 方法 称 为 奇异 值 分 解 (Singular Value Decomposition，SVD )。 从 生物 信息 学 
到 金融 学 等 在 内 的 很 多 应 用 中 ，SVD 都 是 提取 信息 的 强大 工具 。 

本 曹 将 介绍 SVD 的 概念 及 其 能 够 进行 数据 约 简 的 原因 。 然 后 ， 我 们 将 会 介绍 基于 Python 的 
SVD 实 现 以 及 将 数据 映射 到 低 维 空间 的 过 程 。 再 接 下 来 , 我 们 就 将 学 习 推 荐 引 敬 的 概念 和 它们 的 
实际 运行 过 程 。 为 了 提高 SVD 的 精度 ,我 们 将 会 把 其 应 用 到 推荐 系统 中 去 ， 该 推荐 系统 将 会 帮助 
人 们 寻找 到 合适 的 餐馆 。 最 后 ,我 们 讲述 一 个 SVD 在 图 像 压缩 中 的 应 用 例子 。 


14.1 ”SVD 的 应 用 





























奇异 值 分 解 
优点 : 简化 数据 ， 去 除 骂 声 ， 提 高 幅 法 的 结果 。 
缺点 : 数据 的 转换 可 能 难以 理解 。 

适用 数据 类 型 :数值 型 数据 。 
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利用 SVD 实 现 , 我 们 能 够 用 小 得 多 的 数据 集 来 表示 原始 数据 集 。 这 样 做 ,实际 上 是 去 除了 品 
声 和 元 余 信 息 。 当 我 们 试图 节省 空间 时 ,去 除 噪声 和 克 余 信息 就 是 很 过 高 的 目标 了 , 但 是 在 这 里 我 
们 则 是 从 数据 中 抽取 信息 。 基 于 这 个 视角 ,我 们 就 可 以 把 SVD 看 成 是 从 有 了 只 声 数据 中 抽取 相关 特征 。 
如 果 这 一 点 听 来 奇怪 ， 也 不 必 担 心 ， 我 们 后 面 会 给 出 右 十 SVD 应 用 的 场景 和 方法 ， 解 释 它 的 威力 。 

首 完 , 我 们 会 介绍 SVD 是 如 何 通 过 隐 性 语义 索引 应 用 于 搜索 和 信息 检索 领域 的 。 然后， 我们 
再 介绍 SVD 在 推荐 系统 中 的 应 用 。 




















14.1.1 隐 性 语义 索引 


SVD 的 历史 已 经 超过 上 百 个 年 头 , 但 是 最 近 几 十 年 随 着 计算 机 的 使 用 , 我 们 发 现 了 其 更 多 的 
使 用 价值 。 最 早 的 SVD 应 用 之 一 就 是 信息 检索 。 我 们 称 利 用 SVD 的 方法 为 隐 性 语义 索引 (Latent 
Semantic Indexing，LSI ) 或 隐 性 语义 分 析 (Latent Semantic Analysis，LSA )。 

在 LSI 中 ， 一 个 矩阵 是 由 文档 和 词语 组 成 的 。 当 我 们 在 该 矩阵 上 应 用 SVD 时 ， 就 会 构建 出 多 
个 奇异 值 。 这 些 奇 异 值 代表 了 文档 中 的 概念 或 主题 ， 这 一 特点 可 以 用 于 更 高 效 的 文档 搜索 。 在 词 
语 拼 写 错误 时 ,只 基于 词 培 存在 与 否 的 简单 搜索 方法 会 过 到 问题 。 人 简单 搜索 的 为 一 个 问题 就 是 同 
义 词 的 使 用 。 这 就 是 说 ， 当 我 们 查找 一 个 词 时 ， 其 同义词 所 在 的 文档 可 能 并 不 会 匹配 上 。 如 果 我 
们 从 上 于 篇 相似 的 文档 中 抽取 出 概念 ， 那 么 同义词 就 会 映射 为 同一 概念 。 


14.1.2 ”推荐 系统 


SVD 的 万 一 个 应 用 就 是 推荐 系统 。 简 单 版 本 的 推荐 系统 能 够 计算 项 或 者 人 之 间 的 相似 度 。 更 
先进 的 方法 则 先 利 用 SVD 从 数据 中 构建 一 个 主题 空间 , 然后 再 在 该 空间 下 计算 其 相似 度 。 考 虑 图 
14-1 中 给 出 的 矩阵 ， 它 是 由 餐馆 的 某 和 品 荣 师 对 这 些 染 的 意见 构成 的 。 品 有 染 师 可 以 采用 1 到 5 之 间 
的 任意 一 个 整数 来 对 沫 评级 。 如 采 品 沫 师 没有 答 过 有 菏 所 于， 则 评级 为 0。 















































日 
鳗 寿 烧 让 鳗 从 寿 烤 而 
鱼 鸡 司 牛 和 猪 鱼 鸡 司 牛 猪 
饭 排 饭 内 内 饭 排 饭 内 内 
Ed | 0 0 0 2 2 Ed | 0 0 0 2 2 
Peter | 0 0 0 3 3 Peter | 0 0 0 3 3 
Tracy | 0 0 0 1 1 Tracy | 0 0 0 1 1 
Fan | 1 1 1 0 0 Fan | 1 1 1 0 0 
Ming | 2 2 2 0 0 Ming 2 2 2 0 0 
Pachi 5 5 5 0 0 Pachi 5 5 5 0 0 
Jocelyn | 1 1 1 0 0 Jocelyn | 1 1 1 0 0 


图 14-1 餐馆 的 菜 及 其 评级 的 数据 。 对 此 矩阵 进行 SVD 处 理 则 可 以 将 数据 压缩 到 右 干 概念 中 去 。 
在 右边 的 矩阵 当中 ， 标 出 了 一 个 概念 
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我 们 对 上 述 和 矩阵 进行 SVD 人 处理 ,会 得 到 两 个 奇异 值 ( 读者 如 果 不 信 可 以 自己 试 试 )。 因 此 ， 
就 会 仿佛 有 两 个 概念 或 主题 与 此 数据 集 相关 联 。 我 们 看 看 能 否 通 过 观察 图 中 的 0 来 找到 这 个 矩阵 
的 具体 概念 。 观 察 一 下 右 图 的 阴影 部 分 ， 看 起 来 Ed、Peter 和 Tracy 对 “ 烤 牛 肉 ” 和 “ 手 撕 猪肉 ” 
进行 了 评级 , 同时 这 三 人 未 对 其 他 菜 评 级 。 烤 牛肉 和 手 撕 猪肉 都 是 美式 烧烤 餐馆 才 有 的 亲 ， 其 他 
菜 则 在 日 式 餐 馆 才 有 。 

我 们 可 以 把 奇异 值 想象 成 一 个 新 空间 。 与 图 14-1 中 的 矩阵 给 出 的 五 维 或 者 七 维 不 同 ， 我们 最 
终 的 矩阵 只 有 二 维 。 那么 这 二 维 分 别 是 什么 呢 ? 它们 能 告诉 我 们 数据 的 什么 信息 ? 这 二 维 分 别 对 
应 图 中 给 出 的 两 个 组 , 右 图 中 已 经 标示 出 了 其 中 的 一 个 组 。 我 们 可 以 基于 每 个 组 的 共同 特征 来 命 
名 这 二 维 ， 比 如 我 们 得 到 的 美式 BBQ 和 日 式 食品 这 二 维 。 

如 何 才 能 将 原始 数据 变换 到 上 述 新 空间 中 呢 ? 下 一 节 我 们 将 会 进一步 详细 地 介绍 SVD , 届时 
将 会 了 解 到 SVD 是 如 何 得 到 g 和 两 个 矩阵 的 。V 和 矩阵 会 将 用 户 映 射 到 BBQ/ 日 式 食品 空间 去 。 类 
似 地 ,vo 矩阵 会 将 餐馆 的 菜 映射 到 BBQ/ 日 式 食品 空间 去 。 真 实 的 数据 通常 不 会 像 图 14-1 中 的 矩阵 
那样 稠密 或 整齐 ， 这 里 如 此 只 是 为 了 便于 说 明 问题 。 

推荐 引擎 中 可 能 会 有 噪声 数据 ， 比 如 某 个 人 对 某 些 菜 的 评级 就 可 能 存在 噪声 , 并 且 推 荐 系统 
也 可 以 将 数据 抽取 为 这 些 基本 主题 。 基 于 这 些 主题 ,推荐 系统 就 能 取得 比 原始 数据 更 好 的 推荐 效 
果 。 在 2006 年 未 ， 电 影 公 司 Netflix 曾 经 举办 了 一 个 奖金 为 100 万 美元 的 大 赛 ， 这 笔 奖 金 会 颁 给 比 
当时 最 好 系统 还 要 好 10% 的 推荐 系统 的 参赛 者 。 最 后 的 获奖 者 就 使 用 了 SVD ”。 

下 一 万 将 介绍 SVD 的 一 些 育 景 材 料 ， 接 着 给 出 利用 Python 的 NumPy 实 现 SVD 的 过 程 。 然 后 ， 
我 们 将 进一步 深入 讨论 推荐 引擎 。 当 对 推荐 引擎 有 相当 的 了 解 之 后 , 我 们 就 会 利用 SVD 构 建 一 个 
推 存 系统 。 

SVD 是 矩阵 分 解 的 一 种 类 型 ， 而 和 矩阵 分 解 是 将 数据 矩阵 分 解 为 多 个 独立 部 分 的 过 程 。 接 下 来 
我 们 首先 介绍 矩阵 分 解 。 


14.2 ”和 矩阵 分 解 


在 很 多 情况 下 ， 数 据 中 的 一 小 段 携带 了 数据 集中 的 大 部 分 信息 ， 其 他 信息 则 要 么 是 噪声 
么 就 是 毫 不 相关 的 信息 。 在 线性 代数 中 还 有 很 多 抢 阵 分 解 技 术 。 和 矩阵 分 解 可 以 将 原始 矩阵 表示 成 
新 的 易于 人 处理 的 形式 , 这 种 新 形式 是 两 个 或 多 个 矩阵 的 乘积 。 我 们 可 以 将 这 种 分 解 过 程 想 象 成 代 
数 中 的 因子 分 解 。 如 何 将 12 分 解 成 两 个 数 的 乘积 ? (1,12)、(2,6) 和 (3,4) 都 是 合理 的 答案 。 

不 同 的 矩阵 分 解 技术 具有 不 同 的 性 质 , 其 中 有 些 更 适合 于 某 个 应 用 , 有 些 则 更 适合 于 其 他 应 
用 。 最 常见 的 一 种 矩阵 分 解 技 术 就 是 SVD。SVD 将 原始 的 数据 集 和 矩阵 Data 分解 成 三 个 矩阵 U、B 
和 v*。 如 果 原 始 和 矩阵 Data 是 m 行 n 列 ， 那 么 J、z 和 VV 就 分 别 是 m 行 m 列 、m 行 n 列 和 n 行 n 列 。 为 了 
清晰 起 见 ， 上 述 过 程 可 以 写成 如 下 一 行 (下 标 为 矩阵 维 数 ): 















































GD Yehuda Koren, “The BellKor Solution to the Netflix Grand Prize,” August 2009; http:Wwww. netflixprize.com/assets/ 
GrandPrize2009 BPC Bellkor.pdf. 
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Data,, U > Vi, 


mxm 


上 述 分 解 中 会 构建 出 一 个 矩阵 2， 该 甜 阵 只 有 对 角 元 素 ， 其 他 元 素 均 为 0。 另 一 个 惯例 就 是 ， 
2 的 对 角 元 素 是 从 大 到 小 排列 的 。 这 些 对 角 元 素 称 为 奇异 值 (Singular Value )， 它 们 对 应 了 原始 数 
据 集 和 矩阵 Data 的 奇异 伸 。 回 想 上 一 章 的 PCA， 我 们 得 到 的 是 矩阵 的 特征 值 ， 它 们 告诉 我 们 数据 
集中 的 重要 特征 。z 中 的 奇异 值 也 是 如 此 。 奇 寞 值 和 特征 值 是 有 关系 的 。 这 里 的 奇异 值 就 是 矩阵 
Data * Data 特征 值 的 平方 根 。 

前 面 提 到 过 ， 和 矩阵 2 只 有 从 大 到 小 排列 的 对 角 元 系 。 在 科学 和 工程 中 ,一 二 存在 这 样 一 个 普 
珊 事 实 : 在 菏 个 奇异 值 的 数 日 (r+ 个 ) 之 后 ， 其 他 的 奇异 值 都 置 为 0。 这 就 意味 看 数据 集中 仅 有 
个 重要 特征 ， 而 其 余 特 征 则 都 是 噪声 或 元 余 特 征 。 在 下 一 贡 中 ， 我 们 将 看 到 一 个 可 靠 的 案例 。 

我 们 不 必 担 心 该 如 何 进 行 窍 阵 分解 。 在 下 一 方 中 就 会 提 到 , 在 NumPy 线 性 代数 库 中 有 一 个 实 
现 SVD 的 方法 。 如 果 读 者 对 SVD 的 编程 实现 感 兴趣 的 话 ， 请 阅读 Numerical Linear Algebra。 


14.3” 利 用 Python 实现 SVD 


如 果 SVD 确 实 那么 好 , 那么 该 如 何 实 现 它 呢 ”SVD 实现 了 相关 的 线性 代数 , 但 这 并 不 在 本 书 
的 讨论 范围 之 内 。 其 实 ， 有 很 多 软件 包 可 以 实现 SVD。NumPy 有 一 个 称 为 linalg 的 线性 代数 工具 
箱 。 接 下 来 ,我 们 了 解 一 下 如 何 利 用 该 工具 箱 实现 如 下 和 抢 阵 的 SVD 处 理 : 


1 1 
ad 
要 在 Python 上 实现 该 矩阵 的 SVD 处 理 ， 请 键入 如 下 命令 : 
>>> from numpy import * 
>>> U,Sigma,VIi=linalg.svd([[1, 1],[7, 7]|]) 
接 下 来 就 可 以 在 如 下 多 个 矩阵 上 进行 答 试 : 
>>> U 
array([[-0.14142136, -0.98994949]， 


[-0.98994949, 0.14142136]]) 
>>> Sigma 
































array([ 10.， 0.]) 
>>> VT 
array([[-0.70710678, -0.70710678],， 


[-0.70710678, 0.70710678]]) 


我 们 注意 到 ， 和 矩阵 sijgma 以 行 癌 量 array([ 10.，0.]1) 返 回 ， 而 非 如 下 和 矩阵 : 


array([[ 10., 0.], 
[ 0., 0.]]). 


由 于 矩阵 除了 对 角 元 系 其 他 均 为 0%， 因 此 这 种 仅 返 回 对 角 元 系 的 方式 能 够 广 省 空间 ， 这 就 是 
由 NumPy 的 内 部 机 制 产生 的 。 我 们 所 要 记 住 的 是 , 一 旦 看 到 sigma 就 要 知道 它 是 一 个 和 矩阵 。 好 了 ， 
接 下 来 我 们 将 在 一 个 更 大 的 数据 集 上 进行 更 多 的 分 解 。 

















GD L. Trefethen and D. Bau IIL Numerical Linear Algebra (SIAM: Society for Industrial and Applied Mathematics, 1997). 
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建立 一 个 新 文件 svdRec.py 并 加 入 如 下 代码 : 


def loadExData(): 


return[[1, 1, 1, 0, 0],， 
[2, 2, 2, 0, 0],， 
[1, 1, 1, 0, 0],， 
[5, 5, 5, 0, 0], 
[1, 1, 0, 2, 2],， 
[0, 0, 0, 3, 3], 
[0, 0, 0, 1, 1]] 
接 下 来 我 们 对 该 矩阵 进行 SVD 分 解 。 在 保存 好 文件 svdRec.py 之 后 ， 我 们 在 Python 提 示 符 下 


>>> import svdRec 

>>> Data=svdRec.1loadExData () 

>>> U,Sigma,VT=linalg.svd (Datal) 

>>> Sigma 

array([ 9.72140007e+00 ， 5.29397912e+00 ， 6.84226362e-01， 
7.16251492e-16, 4.85169600e-32]) 


本 3 个 数值 比 其 他 的 值 大 了 很 多 ( 如 果 你 的 最 后 两 个 值 的 结果 与 这 里 的 结果 稍 有 不 同 ， 也 不 
必 担 心 。 它 们 太 小 了 , 所 以 在 不 同 机 器 上 产生 的 结果 就 可 能 会 稍 有 不 同 , 但 是 数量 级 应 该 和 这 里 
的 结果 差不多 )。 于 是 ,我们 就 可 以 将 最 后 两 个 值 去 挥 了 了。 
接 下 来 ,我 们 的 原 娘 数据 集 就 可 以 用 如 下 结果 来 近似 : 
Data,,, i Sm > 广 
图 14-2 就 是 上 述 近 似 计算 的 一 个 示意 图 。 





3xn 


ul 














之 
Data U 
图 14-2 SVD 的 示 音 图。 矩阵 Data 被 分 解 。 浅 灰色 区 域 是 原始 数据 ， 深 灰色 区 域 是 矩阵 近 
似 计算 仅 需 要 的 数据 
我 们 试图 重 构 原始 矩阵 。 前 先 构 建 一 个 3x3 的 矩阵 Sig3: 
>>> Sig3=mat ([[Sigma [0], 0, 0],[0, Sigma[1], 0], [0, 0, Sigma{[2]]]) 


接 下 来 我 们 重 构 原始 和 矩阵 的 近似 和 矩阵。 由 于 sig3 仪 为 3x3 的 矩阵， 因而 我 们 只 需 使 用 和 矩 阵 U 
的 前 3 列 和 Vi 的 前 3 行 。 为 了 在 Python 中 实现 这 一 点 ， 输 入 如 下 命令 : 


14.4 基于 协同 过 滤 的 推荐 引擎 257 


>>> U[:,:3]*Sig3*VT[:3,:] 
array([[ 1 1.， 1 0.， 0.],， 
Be 2 2.,， -0., -0.], 
[ 工 .， 1., 1., -0., -0.], 
[ 5 SE 5 0 » 0.]， 
[ 1 业 二 0 2 2 ]， 
[ 0.， 0., -0. 2 3.]， 
[ 0., 0 0 . 1 . 1.]]) 


我 们 是 如 何 知 道 仅 需 保留 前 3 个 奇异 值 的 呢 ? 确定 要 保留 的 奇异 值 的 数目 有 很 多 启发 式 的 策 
略 ， 其 中 一 个 典型 的 做 法 就 是 保留 矩阵 中 90% 的 能 量 信息 。 为 了 计算 总 能 量 信息 ,我 们 将 所 有 的 
奇异 值 求 其 平方 和 。 于 是 可 以 将 奇异 值 的 平方 和 累加 到 总 值 的 90% 为 止 。 另 一 个 局 发 式 策 略 承 是 ， 
当 和 矩阵 上 有 上 万 的 奇异 值 时 ,那么 就 保留 前 面 的 2000 或 3000 个 。 尽管 后 一 种 方法 不 太 优 雅 , 但 是 
在 实际 中 更 容易 实施 。 之 所 以 说 它 不 够 优雅 ,就 是 因为 在 任何 数据 集 上 都 不 能 保证 前 3000 个 奇 寞 
值 就 能 够 包含 90% 的 能 量 信息 。 但 在 通常 情况 下 ， 使 用 者 往往 都 对 数据 有 足够 的 了 解 ， 从 而 就 能 
够 做 出 类 似 的 假设 了 。 

现在 我 们 已 经 通过 三 个 矩阵 对 原始 矩阵 进行 了 近似 ,我们 可 以 用 一 个 小 很 多 的 矩阵 来 表示 一 
个 大 矩阵。 有 很 多 应 用 可 以 通过 SVD 来 提升 性 能 。 下面 我 们 将 讨论 一 个 比较 流行 的 SVD 应 用 的 例 
子 一 一 推荐 引擎。 


14.4 基于 协同 过 滤 的 推荐 引擎 


近 十 年 来 ， 推 荐 引擎 对 因特网 用 户 而 言 已 经 不 是 什么 新 鲜 事 物 了 。Amazon 会 根据 顾客 的 购 
严 历 史 问 他 们 推荐 物品 ，Nettlix 会 回 其 用 户 推 荐 电影 ， 新 闻 网 站 会 对 用 户 推荐 新 闻 报 道 ， 这 样 的 
例子 还 有 很 多 很 多 。 当 然 ， 有 很 多 方法 可 以 实现 推荐 功能 ， 这 里 我 们 只 使 用 一 种 称 为 协同 过 滤 
( collaborative filtering ) 的 方法 。 协 同 过 滤 是 通过 将 用 户 和 其 他 用 户 的 数据 进行 对 比 来 实现 推 
荐 的 。 

这 里 的 数据 是 从 概念 上 组 织 成 了 类 似 图 14-2 所 给 出 的 矩阵 形式 。 当 数据 采用 这 种 方式 进行 组 
织 时 , 我 们 就 可 以 比较 用 户 或 物品 之 间 的 相似 度 了 。 这 两 种 做 法 都 会 使 用 我 们 很 快 就 介绍 到 的 相 
似 度 的 概念 。 当 知道 了 两 个 用 户 或 两 个 物品 之 间 的 相似 度 , 我 们 就 可 以 利用 已 有 的 数据 来 预测 未 
知 的 用 户 袁 好。 例如 , 我 们 试图 对 某 个 用 户 吉 欢 的 电影 进行 预测 ， 推 荐 引擎 会 发 现 有 一 部 电影 该 
用 户 还 没 看 过 。 然 后 ， 它 就 会 计算 该 电影 和 用 户 看 过 的 电影 之 间 的 相似 度 ， 如 采 其 相似 度 很 高 ， 
推荐 算 法 就 会 认为 用 户 喜 欢 这 部 电影 。 

在 上 述 场景 下 ， 唯 一 所 需要 的 数学 方法 就 是 相似 度 的 计算 ， 这 并 不 是 很 难 。 接 下 来 ,我 们 首 
和 完 讨论 物品 之 间 的 相似 度 计算 ,然后 讨论 在 基于 物品 和 基于 用 户 的 相似 度 计算 之 间 的 折 中 。 最 后 ， 
我 们 介绍 推荐 引擎 成 功 的 度量 方法 。 


14.4.1 相似 度 计 算 


我 们 希望 拥有 一 些 物品 之 间 相 似 度 的 定量 方法 。 奢 么 如 何 找 出 这 些 方法 呢 ? 倘 右 我 们 面 对 的 
是 食品 销售 网 站 ,该 如 何 处 理 ? 或 许可 以 根据 食品 的 配料 、 热 量 、 菏 个 受 调 类 型 的 定义 或 者 其 他 
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类 似 的 信息 进行 相似 度 的 计算 。 现 在 , 假设 该 网 站 想 把 业务 拓展 到 餐具 行业 ， 那 么 会 用 热量 来 描 
述 一 个 叉子 吗 ? 问题 的 关键 就 在 于 用 于 措 述 食品 的 属性 和 描述 餐具 的 属性 有 所 不 同 。 倘 大 我 们 使 
用 为 外 一 种 比较 物品 的 方法 会 怎样 呢 ?” 我 们 不 利用 专家 所 给 出 的 重要 属性 来 描述 物品 从 而 计算 
它们 之 间 的 相似 度 , 而 是 利用 用 户 对 它们 的 意见 来 计算 相似 度 。 这 就 是 协同 过 滤 中 所 使 用 的 方法 。 
它 并 不 关心 物品 的 描述 属性 ， 而 是 严格 地 按照 许多 用 户 的 观点 来 计算 相似 度 。 图 14-3 给 出 了 由 一 
些 用 户 及 其 对 前 面 给 出 的 部 分 采 丰 的 评级 信息 所 组 成 的 矩阵 。 























3 手 

鳗 炸 寿 烧 撕 

鱼 鸡 司 牛 猪 

饭 排 ” 饭 内 内 

Jim 2 0 0 4 4 
John 5 5 3 3 
Sally | 2 4 2 1 2 


图 14-3 ”用 于 展示 相似 度 计 算 的 简单 矩阵 
我 们 计算 一 下 手 撕 猪肉 和 烤 牛 内 之 间 的 相似 度 。 一 开始 我 们 使 用 欧 氏 距离 来 计算 。 手 撕 猪 肉 


和 烤 牛 肉 的 欧 氏 距离 为 : 
V(4-4)* +(3-3) +(2-1) =1 


而 手 撕 猪肉 和 鳗鱼 饭 的 欧 氏 距离 为 : 


(42) 1G3-5) 12 2) =2.83 

在 该 数据 中 , 由 于 手 撕 猪肉 和 烤 牛 肉 的 距离 小 于 手 撕 猪肉 和 鳗鱼 饭 的 距离 , 因此 手 捧 猪肉 与 
烤 牛 肉 比 与 鳗鱼 饭 更 为 相似 。 我 们 希望 ， 相 似 度 值 在 0 到 1 之 间 变 化 ， 并 且 物 品 对 越 相似 ， 它 们 的 
相似 度 值 也 就 越 大 。 我们 可 以 用 “相似 度 =1/(1+ 距 离 ) ”这 样 的 算式 来 计算 相似 度 。 当 距离 为 0 时 ， 
相似 度 为 1.0。 如 果 距 离 真 的 非常 大 时 ， 相 似 度 也 就 趋 近 于 0。 

第 二 种 计算 距离 的 方法 是 皮尔 逊 相 关系 数 ( Pearson correlation )。 我 们 在 第 8 章 度 量 回 归 方 程 
的 精度 时 曾经 用 到 过 这 个 量 , 它 度 量 的 是 两 个 回 量 之 间 的 相似 度 。 该 方法 相对 于 欧 氏 距离 的 一 个 
优势 在 于 ， 它 对 用 户 评 级 的 量 级 并 不 敏感 。 比 如 某 个 狂 踩 者 对 所 有 物品 的 评分 都 是 $ 分 ， 而 夯 一 
个 忧郁 者 对 所 有 物品 的 评分 都 是 1 分 , 皮尔 逊 相关 系数 会 认为 这 两 个 回 量 是 相等 的 。 在 NumPy 中 ， 
皮尔 还 相关 系数 的 计算 是 由 函数 corrcoef () 进行 的 ， 后 面 我 们 很 快 就 会 用 到 它 了 。 皮 和 尔 逊 相关 
系数 的 取信 范围 从 -1 到 +1， 我 们 通过 0.5 + 0.5*corrcoef () 这 个 图 数 计算 ， 并 且 把 其 取信 范 
围 归 一 化 到 0 到 1 之 间 。 

另 一 个 稼 用 的 距离 计算 方法 就 是 余 约 相 似 度 ( cosine similarity ), 其 计算 的 是 两 个 癌 量 夹 角 的 
余 强 值 。 如 果 夹 角 为 90 度 ， 则 相似 上 度 为 0; 如 果 两 个 辐 量 的 方向 相同 ， 则 相似 度 为 1.0。 同 皮尔 逊 
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相关 系数 一 样 , 余弦 相似 度 的 取 值 红 围 也 在 -1 到 +1 之 间 ， 因 此 我 们 也 将 它 归 一 化 到 0 到 1 之 间 。 计 
算 余 弦 相 似 度 值 ， 我 们 采用 的 两 个 向 量 4 和 B 夹 角 的 余弦 相似 度 的 定义 如 下 : 
A:B 


coOS O = 一 一 一 一 
| 网 





其 中 ，| 则 ll、|B 表 示 回 量 4、 瑟 的 2 范 数 ， 你 可 以 定义 回 量 的 任 一 范 数 ， 但 是 如 果 不 指定 范 数 
阶 数 ， 则 都 假设 为 2 范 数 。 回 量 [4,2,2] 的 2 范 数 为 : 
V4 :+3 +2” 
同样 ，NumPy 的 线性 代数 工具 箱 中 提供 了 范 数 的 计算 方法 linalg .norm()。 


接 下 来 我 们 将 上 述 各 种 相似 度 的 计算 方法 写成 Python 中 的 函数 。 打 开 svdRec.py 文 件 并 加 入 下 
列 代 码 。 


程序 清单 14-1 相似 度 计算 
from numpy import * 
from numpy import linalg as la 


def ecludSim(inA, InB) : 
return 1.0/(1.0 + la.norm(inA - inB)) 


def pearsSim(inA,inB): 
if len(inA) < 3 : return 1.0 
return 0.5+0.5*corrcoef (inA, inB, rowvar = 0) [0] [1] 


def cosSim(inA,1inB): 
num = float (inA.T*inp) 
denom = la.norm(inA)*]1a.norm (inBp) 
return 0.5+0.5* (num/denom) 


程序 中 的 3 个 函数 就 是 上 面 提 到 的 几 种 相似 度 的 计算 方法 。 为 了 便于 理解 ，NumPy 的 线性 代 
数 工 具 箱 linalg 被 作为 1a 导 入 ， 郴 数 中 假定 ina 和 inB 都 是 列 向 量 。perasSim() 函数 会 检查 是 否 
存在 3 个 或 更 多 的 点 。 如 果 不 存 在 ,该 函数 返回 1.0， 这 是 因为 此 时 两 个 癌 量 完全 相关 。 

下 面 我 们 对 上 述 函 数 进行 尝试 。 在 保存 好 文件 svdRec.py 之 后 , 在 Python 提示 符 下 输入 如 下 命 








>>> reload (svdRec) 

<module 'svdRec' from 'svdRec.pyc'> 

>>> myMat=mat (svdRec .loadExData ()) 

>>> SvdRec.ecludSim(myMat[:,0] ,myMat [:,4]) 
0.12973190755680383 

>>> SvdRec.ecludSim(myMat[:,0] ,myMat [:,0]) 
1.0 


欧 氏 距离 看 上 去 还 行 ， 那 么 接 下 来 试 试 余弦 相似 度 : 
>>> SvdRec.cosSim(myMat[:,0] ,myMat [:,4]) 
0 .5 


>>> SvdRec.cosSim(myMat[:,0] ,myMat [:，0]) 
1.0000000000000002 
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余弦 相似 度 似乎 也 行 ， 就 再 试 试 皮尔 还 相关 系数 : 

>>> SvdRec.pearsSim(myMat[:,0] ,myMat [:,4]) 
0.20596538173840329>>> svdRec.pearsSim(myMat[:,0] ,myMat[:,0]) 
1.0 


上 面 的 相似 度 计 算 虱 是 假 设 数 据 采用 了 列 癌 量 方式 进行 表示 。 如 末 利 用 上 述 消 数 来 计算 两 个 行 
癌 量 的 相似 度 就 会 遇 到 问题 ( 我 们 很 容易 对 上 述 消 数 进 行 修改 以 计算 行 丫 量 之 间 的 相似 度 )。 这 里 采 
用 列 回 量 的 表示 方法 ， 上 暗示 厦 我 们 将 利用 基于 物品 的 相似 度 计 算 方 法 。 后 面 我 们 会 前 述 其 中 的 原因 。 


14.4.2 ”基于 物品 的 相似 度 还 是 基于 用 户 的 相似 度 ? 


我 们 计算 了 两 个 餐馆 菜肴 之 间 的 距离 ， 这 称 为 基于 物品 ( item-based ) 的 相似 度 。 男 一 种 计 
算 用 户 距 离 的 方法 则 称 为 基于 用 户 (user-based ) 的 相似 度 。 回 到 图 14-3, 行 与 行 之 间 比 较 的 是 基 
于 用 户 的 相似 度 , 列 与 列 之 则 比较 的 则 是 基于 物品 的 相似 度 。 到 底 使 用 哪 一 种 相似 度 呢 ”这 取决 
于 用 户 或 物品 的 数目 。 基 于 物品 相似 度 计算 的 时 间 会 随 物品 数量 的 增加 而 增加 ,基于 用 户 的 相似 
度 计 算 的 时 间 则 会 随 用 户 数量 的 增加 而 增加 。 如 果 我 们 有 一 个 商店 ， 那 么 最 多 会 有 几 千 件 商品 。 
在 撰写 本 书 之 际 ， 最 大 的 商店 大 概 有 100 000 件 商品 。 而 在 Netflix 大 赛 中 ， 则 会 有 480 000 个 用 户 
和 17 700 部 电影 。 如 果 用 户 的 数目 很 多 ， 那 么 我 们 可 能 倾向 于 使 用 基于 物品 相似 度 的 计算 方法 。 

对 于 大 部 分 产品 导 回 的 推荐 引擎 而 言 , 用 户 的 数量 往往 大 于 物品 的 数量 , 即 购 买 商 品 的 用 户 
数 会 多 于 出 售 的 商品 种 类 。 



































14.4.3 ”推荐 引擎 的 评价 


如 何 对 推 存 引擎 进行 评价 呢 ? 此 时 , 我 们 既 没 有 预测 的 目标 值 , 也 没有 用 户 来 调查 他 们 对 预 
测 的 满意 程度 。 这 里 我 们 就 可 以 采用 前 面 多 次 使 用 的 交叉 测试 的 方法 。 具 体 的 做 法 就 是 ,我 们 将 
某 些 已 知 的 评分 值 去 反 ， 然 后 对 它们 进行 预测 ， 最 后 计算 预测 但 和 真实 值 之 间 的 差异 。 

通常 用 于 推荐 引 敬 评价 的 指标 是 称 为 最 小 均 方 根 误差 ( Root Mean Squared Error，RMSE ) 的 
指标 ， 它 首先 计算 均 方 误差 的 平均 信 然 后 取 其 平方 根 。 如 采 评 级 在 1 星 到 5 星 这 个 范围 内 ， 而 我 们 
得 到 的 RMSE 为 1.0， 那 么 就 意味 看 我 们 的 预测 值 和 用 户 给 出 的 夏 实 评价 相差 了 一 个 星 级 。 


14.5 示例 : 餐馆 菜肴 推荐 引擎 


现在 我 们 就 开始 构建 一 个 推荐 引擎 , 该 推荐 引 敬 关注 的 是 餐馆 食物 的 推荐 。 假设 一 个 人 在 家 
决定 外 出 吃饭 , 但 是 他 并 不 知 违 该 到 哪儿 去 吃饭 , 该 点 什么 末 。 我 们 这 个 推荐 系统 可 以 帮 他 做 到 
这 两 点 。 

首先 我 们 构建 一 个 基本 的 推荐 引擎 ， 它 能 够 寻找 用 户 没 有 答 过 的 某 看 。 然 后 ,通过 SVD 来 减 
少 特征 空间 并 提高 推荐 的 效果 。 这 之 后 ,将 程序 打包 并 通过 用 户 可 该 的 人 机 界面 提供 给 人 们 使 用 。 
最 后 ， 我 们 介绍 在 构建 推荐 系统 时 面临 的 一 些 问题 。 
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14.5.1 推荐 未 党 过 的 菜肴 


推荐 系统 的 工作 过 程 是 : 给 定 一 个 用 户 ， 系 统 会 为 此 用 户 返回 N 个 最 好 的 推荐 沫 。 为 了 实现 
一 点 ， 则 和 需要 我 们 做 到 : 
(1) 寻找 用 户 没 有 评级 的 菜肴 ， 即 在 用 户 - 物品 矩阵 中 的 0 值 ; 
(2) 在 用 户 没有 评级 的 所 有 物品 中 ， 对 每 个 物品 预计 一 个 可 能 的 评级 分 数 。 这 就 是 说 ， 我 们 
认为 用 户 可 能 会 对 物品 的 打分 〈 这 就 是 相似 度 计算 的 初衷 ); 
(3) 对 这 些 物品 的 评分 从 高 到 低 进 行 排序 ， 返 回 前 N 个 物品 。 
好 了 ， 接 下 来 我 们 尝试 这 样 做 。 打 开 svdRec.py 文 件 并 加 入 下 列 程序 清单 中 的 代码 。 


程序 清单 14-2 基于 物品 相似 度 的 推荐 引擎 


def standEst (dataMat, user, simMeas, item): 
n = Shape (dataMat) [11] 
simTotal = 0.0; ratSimTotal = 0.0 
for ] in range (n): 
userRating = dataMat [usez,]j 


if userRating == 0: continue 人 寻找 两 个 用 户 都 
\ 














overLap = nonzero(logical and(dataMat[:,item] .A>0, 评级 的 物品 
dataMat [:,j] .A>0)) [0] 
0: similarity = 0 
simMeas (dataMat [overLap,item], \ 
dataMat [overLap,j]) 
#print 'the %d and %d similarity is: $f' $$ (item, Jj, similarity) 
simTotal += similarity 
ratSimTotal += similarity * userRating 
if simTotal == 0: return 0 
else: return ratSimTotal/simTotal 


if lenl(overLap) = 
else: similarity 


def recommend (dataMat, user, N=3, simMeas=cosSim, estMethod=standEst): 


unratedIitems = nonzero(dataMat [user,:|] .A==0) [1] 
if len(unratedIitems) == 0: return 'you rated everything' 寻找 未 评级 的 物品 








itemScores = [] 
for item in unratedItems: 
estimatedScore = estMethod(dataMat, user, simMeas, item) 
itemScores.append( (item, estimatedScore)) 
return sorted(itemScores, \ 局 寻找 前 N 个 未 评级 物品 
key=lambda ]j]: jj[1], reverse=True)[:NI] 
上 上 述 程 序 包含 了 两 个 函数 。 第 一 个 函数 是 standEst () ， 用 来 计算 在 给 定 相 似 度 计算 方法 的 
本 用 户 对 物品 的 佑 计 评 分 值 。 第 一 个 函数 是 recommnena 也 就 是 推荐 引擎 ， 它 会 调用 


standEst () 国 数 。 我 们 先 讨 论 standqEst () 函数 ， a 国 数 。 
人 i 用 户 编号 、 物 品 编号 和 相似 度 计算 方法 。 假 设 这 里 
的 数据 矩阵 为 图 14-1 和 图 14-2 的 形式 ， 即 行 对 应 用 户 、 列 对 应 物品 。 那 么 ， 我 们 首先 会 得 到 数据 
集中 的 物品 数目 ， | 本 初始 化 。 接 春 ， 我 们 过 历 行 中 
的 每 个 物品 。 如 有 果 某 个 物品 评分 值 为 0%， 就 意味 着 用 户 没 有 对 该 物品 评分 ， 跳 过 了 这 个 物品 。 该 
循环 大 体 上 是 对 用 户 评 过 分 的 每 个 物品 进行 过 历 ， 并 将 它 和 其 他 物品 进行 比较 。 变 量 overLap 
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给 出 的 是 两 个 物品 当中 已 经 被 评分 的 那个 元 素 @O。 如 果 两 者 没有 任何 重合 元 素 ， 则 相似 度 为 0 且 
中 止 本 次 循环 。 但 是 如 果 存 在 重合 的 物品 ， 则 基于 这 些 重 合 物 品 计算 相似 度 。 随 后 ， 相 似 度 会 不 
靳 素 加 ， 每 次 计算 时 还 考虑 相似 度 和 当前 用 户 评分 的 乘积 。 最 后 ,通过 除 以 所 有 的 评分 总 和 ， 对 
上 述 相似 度 评 分 的 乘积 进行 归 一 化 。 这 就 可 以 使 得 最 后 的 评分 值 在 0 到 5 之 间 , 而 这 些 评分 值 则 用 
于 对 预测 值 进行 排序 。 

国 数 recommend () 产生 了 最 高 的 N 个 推荐 绪 采 。 如 采 不 指定 N 的 大 小 ， 则 默认 值 为 3。 该 项 
数 另外 的 参数 还 包括 相似 度 计 算 方法 和 估计 方法 。 我 们 可 以 使 用 程序 清单 14-1 中 的 任意 一 种 相似 
度 计算 方法 。 此 时 我 们 能 采用 的 估计 方 法 只 有 一 种 选择 , 但 是 在 下 一 小 节 中 会 增加 另外 一 种 选择 。 
该 函数 的 第 一 件 事 就 是 对 给 定 的 用 户 建立 一 个 未 评分 的 物品 列表 人 @。 如 果 不 存在 未 评分 物品 , 那 
么 就 退出 子 数 ; 否则 ， 在 所 有 的 未 评分 物品 上 进行 循环 。 对 每 个 未 评分 物品 ， 则 通过 调用 
standEst () 来 产生 该 物品 的 预测 得 分 。 该 物品 的 编号 和 估计 得 分 值 会 放 在 一 个 元 系列 表 
itemScores 中 。 最 后 按照 估计 得 分 ， 对 该 列表 进行 排序 并 返回 合 。 该 列表 是 从 大 到 小 逆序 排列 
的 ， 因 此 其 第 一 个 值 就 是 最 大 值 。 

接 下 来 看 看 它 的 实际 运行 效果 。 在 保存 svdRec.py 文 件 之 后 ， 在 Python 提 示 符 下 输入 


信人 
x: 





















































可 


>>> reload (svdRec) 
<module 'svdRec' from 'svdRec.py'> 


下 面 ， 我 们 调和 了 一 个 矩阵 实例 ， 可 以 对 本 章 前 面 给 出 的 矩阵 稍 加 修改 后 加 以 使 用 。 首 移 ， 
调和 原始 矩阵 : 

>>> myMat=mat (svdRec.1loadExData ()) 

该 矩阵 对 于 展示 SVD 的 作用 非 第 好 , 但 是 它 本 号 不 是 十 分 有 趣 , 因此 我 们 要 对 其 中 的 一 些 值 
进行 更 改 : 

>>> myMat [0 , 工 =myMat [0,0]=myMat [1,0] =myMat [2,0|]=4 

>>> myMat [3,3]=2 


现在 得 到 的 矩阵 如 下 : 


>>> myMat 
matrix([[4, 
4， 


N F 小 
DPO Or 
PD POD DO 


[ 
[ 
[ 
[ 
[ 


1, 


OO OODDPOWD 


[5, 5, 5, 0, 0]]) 
好 了 ， 现 在 我 们 已 经 可 以 做 些 推 荐 了 。 我 们 先 答 试 一 下 默认 的 推 存 : 


>>> SvdRec.recommend (myMat, 2 ) 
[(2，2.5000000000000004)， (1, 2.0498713655614456)|] 


这 表明 了 用 户 2( 由 于 我 们 从 0 开始 计数 , 因此 这 对 应 了 矩阵 的 第 3 行 ) 对 物品 2 的 预测 评分 值 为 2.5， 
对 物品 1 的 预测 评分 值 为 2.05。 下 面 我 们 就 利用 其 他 的 相似 度 计 算 方 法 来 进行 推 存 : 
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>>> SvdRec.recommend (myMat, 2, simMeas=svdRec.ecludSim) 
[(2, 3.0), (1, 2.8266504712098603)] 

>>> SvdRec.recommend (myMat, 2, simMeas=svdRec.pearsSim) 
[(2, 2.5), (1, 2.0)] 


我 们 可 以 对 多 个 用 户 进 行 尝试 ， 或 者 对 数据 集 做 些 修改 来 了 解 其 给 预测 结果 市 来 的 变化 。 
这 个 例子 给 出 了 如 何 利 用 基于 物品 相似 度 和 多 个 相似 度 计算 方法 来 进行 推荐 的 过 程 ,下面 我 
们 介绍 如 何 将 SVD 应 用 于 推荐 。 


14.5.2 ”利用 SVD 提高 推荐 的 效果 


实际 的 数据 集会 比 我 们 用 于 展示 recommeng () 咀 数 功能 的 myMat 和 矩阵 黎 臣 得 多 。 网 14-4 就 给 
出 了 一 个 更 真实 的 矩阵 的 例子 。 




















加 EE 

H 三 和 鲁 人 

起 文 宾 印 麻 富 奶 俄 

鳗 炸 寿 烤 鱼 三 度 婆 保 栈 式 

鱼 鸡 司 牛 汉 表 烤 豆 鸡 咖 汉 

饭 排 饭 肉 堡 治 鸡 腐 本 唾 堡 

Brett | 2 0 0 4 4 0 0 0 0 0 0 

Rob | 0 0 0 0 0 0 0 0 0 0 5 

Drew | 0 0 0 0 0 0 0 1 0 4 0 

Scott | 3 3 4 0 3 0 0 2 2 0 0 

Mary | 5 5 5 0 0 0 0 0 0 0 0 

Brent | 0 0 0 0 0 0 5 0 0 5 0 

Kyle | 4 0 4 0 0 0 0 0 0 0 5 

sara 10 0 0 0 0 4 0 0 0 0 4 

Shaney | 0 0 0 0 0 0 5 0 0 5 0 

Brendan |0 0 0 3 0 0 0 0 4 5 0 

Leanna | 1 1 2 1 1 2 1 0 4 5 0 
图 14-4 一 个 更 大 的 用 户 - 菜 看 矩阵 ， 其 中 有 很 多 物品 都 没有 评分 ， 这 比 一 个 全 





填充 的 矩阵 更 接近 真实 情况 


我 们 可 以 将 该 窍 阵 输入 到 程序 中 去 ， 或 者 从 下 载 代码 中 复制 函数 loadExData2 ()。 下 面 我 
们 计算 该 矩阵 的 SVD 来 了 解 其 到 瓜 需 要 多 少 维特 征 。 
>>>from numpy import linalg as la 


>>> U,Sigma,VT=la.svd (mat (svdRec.1loadExData2 () ) ) 
>>> Sigma 





array([ 1.38487021e+01， 1.15944583e+01, 1.10219767e+01, 
5.31737732e+00,， 4.55477815e+00 ， 2.69935136e+00,， 
工 .53799905e+00， 6.46087828e-01, 4.45444850e-01, 
9.86019201le-02, 9.96558169e-17] 





: 4 
接 下 来 我 们 看 看 到 撒 有 多 少 个 奇异 值 能 达到 总 能 量 的 90%。 首 先 ， 对 sigma 中 的 值 求 平 方 : 
>>> Sig2=Sigma**2 


册 计 算 一 下 总 能 量 : 
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>>> Sum (Sig2) 
541.99999999999932 


> >A 人 已 于 
青 计算 总 能 量 的 90%: 
>>> Sum(Sig2)*0.9 
487.79999999999939 


然后 ， 计 算 前 两 个 元 系 所 包含 的 能 量 : 
>>> sum(Sig2[:2]) 
378.8295595113579 


该 值 低 于 总 能 量 的 90%， 于 是 计算 前 三 个 元 素 所 包含 的 能 量 : 
>>> Sum (Sig2[:3]) 
5O00.50028912757909 


该 值 蝇 于 总 能 量 的 90%， 这 束 可 以 了 。 于 是 ， 我们 可 以 将 一 个 11 维 的 矩阵 转换 成 一 个 3 维 的 矩阵 。 
下 面 对 转 换 后 的 三 维 空间 构造 出 一 个 相似 度 计算 函数 ,我 们 利用 SVD 将 所 有 的 苹 看 映射 到 一 个 低 
维 空间 中 去 。 在 低 维 空间 下 ， 可 以 利用 前 面相 同 的 相似 度 计算 方法 来 进行 推荐 。 我 们 会 构造 出 一 
个 类 似 于 程序 清单 14-2 中 的 standEst () 图 数 。 打 开 svdRec.py 文 件 并 加 入 如 下 程序 清单 中 的 代 
人 码 。 


程序 清单 14-3 ”基于 SVD 的 评分 估计 
def svdEst (dataMat, user, simMeas, item): 
n = shape (dataMat) [1] 
simTotal = 0.0; ratSimTotal = 0.0 























U,Sigma,VT = la.svd(dataMat) 9 建立 对 角 和 矩阵 
Sig4 = mat (eye (4)*Sigmal[:4]) 
xformedIitems = dataMat.T * U[:,:4] * Sig4.I 
for j in range(n): 8 构建 转换 后 的 物品 
userRating = dataMat [user,]JI] 
if userRating == 0 or j==item: continue 
similarity = simMeas (xformedItems [item,:].T,\ 
xformedItems [Jj,:|].T) 


print 'the %d and %d similarity is: %f' $% (item, JjJ, similarity) 
simTotal += similarity 
ratSimTotal += similarity * userRating 

if simTotal == 0: return 0 

else: return ratSimTotal/simTotal 


上 述 程 序 中 包含 有 一 个 子 数 svdEst ()。 在 recommend() 中 ， 这 个 函数 用 于 蔡 换 对 stand- 
Est() 的 调用 ,该 限 数 对 给 定 用 户 给 定 物 品 构 建 了 一 个 评分 估计 值 。 如 果 将 该 函数 与 程序 清单 
14-2 中 的 standEst () 图 数 进行 比较 ， 就 会 发 现 很 多 行 代码 都 很 相似 。 该 晒 数 的 不 同 之 处 就 在 于 
它 在 第 3 行 对 数据 集 进 行 了 SVD 分 解 。 在 SVD 分 解 之 后 ,我 们 只 利用 包含 了 90% 能 量 但 的 奇异 值 ， 
这 些 奇异 值 会 以 NumPy 数 组 的 形式 得 以 保存 。 因 此 如 果 要 进行 矩阵 运算 , 那么 就 必须 要 用 这 些 奇 
异 值 构建 出 一 个 对 角 移 阵 @。 然 后 ， 利 用 w 和 矩阵 将 物品 转换 到 低 维 空间 中 全 。 

对 于 给 定 的 用 户 ，foz 循 环 在 用 户 对 应 行 的 所 有 元 系 上 进行 过 历 。 这 和 stanqEst () 困 数 中 
的 for 循 环 的 目的 一 样 ， 只 不 过 这 里 的 相似 度 计算 是 在 低 维 空间 下 进行 的 。 相 似 度 的 计算 方法 也 
会 作为 一 个 参数 传递 给 该 限 数 。 然 后 ， 我们 对 相似 度 求 和 ， 同 时 对 相似 度 及 对 应 评分 值 的 乘积 求 
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和 。 这 些 值 返回 之 后 则 用 于 估计 评分 的 计算 。fozr 循 环 中 加 入 了 一 条 print 语 句 ， 以 便 能 够 了 解 
相似 度 计 算 的 进展 情况 。 如 采 觉 得 这 些 输出 很 素 费 ， 也 可 以 将 该 声名 注释 邱 。 

接 下 来 看 看 程序 的 执行 效果 。 将 程序 清单 14-3 中 的 代码 输入 到 文件 svdRec.py 中 并 保存 之 后 ， 
在 Python 提 示 符 下 运行 如 下 命令 : 

>>> reload (svdRec) 

<module 'svdRec' from 'svdRec.pyc'> 


>>> SvdRec.recommend (myMat, 1, estMethod=svdRec.svdEst) 
The 0 and 3 similarity is 0.362287. 








The 9 and 10 similarity is 0.497753. 
[(6, 3.387858021353602), (8, 3.3611246496054976), (7, 3.3587350221130028)] 


下 面 再 尝试 男 外 一 种 相似 度 计算 方法 : 
>>> SvdRec.recommend (myMat, 1, estMethod=svdRec.svdEst, 


simMeas=svdRec .pearsSim) 
The 0 and 3 similarity is 0.116304. 


The 9 and 10 similarity is 0.566796. 
[(6, 3.3772856083690845), (9，3.3701740601550196)， (4, 3.3675118739831169)|] 


我 们 还 可 以 再 用 其 他 多 种 相似 度 计算 方法 答 试 一 下 。 感 兴趣 的 读者 可 以 将 这 里 的 结 来 和 前 面 
的 方法 (不 做 SVD 分 解 ) 进行 比较 ， 看 看 到 撒 哪 个 性 能 更 好 。 


14.5.3 ”构建 推荐 引擎 面临 的 挑战 


本 市 的 代码 很 好 地 展示 出 了 推荐 引 黎 的 工作 流程 以 及 SVD 将 数据 映射 为 重要 特征 的 过 程 ,在 
撰 瑟 这 些 代码 时 ,我 尽量 保证 它们 的 可 读 性 , 但 是 并 不 保证 代码 的 执行 效率 。 一 个 原因 是 ,我 们 
不 必 在 每 次 估计 评分 时 痢 做 SVD 分 解 。 对 于 上 述 数据 集 ， 是 否 包 含 SVD 分 解 在 效率 上 没有 太 大 的 
区 别 。 但 是 在 更 大 规模 的 数据 集 上 ，SVD 分 解 会 降低 程序 的 速度 。SVD 分 解 可 以 在 程序 调和 时运 
行 一 次 。 在 大 型 系统 中 ，SVD 每 天 运行 一 次 或 者 其 频率 更 低 ， 并 且 还 要 离线 运行 。 

推荐 引擎 中 还 存在 其 他 很 多 规模 扩展 性 的 挑 成 性 问题 ， 比 如 珑 阵 的 表示 方法 。 在 上 面 给 出 的 
例子 中 有 很 多 0,， 实 际 系统 中 0 的 数目 更 多 。 也 许 ,， 我 们 可 以 通过 只 存储 非 擒 元 系 来 让 省 内 存 和 计 
算 开 销 ?” 为 一 个 次 在 的 计算 资源 浪费 则 来 日 于 相似 度 得 分 。 在 我 们 的 程序 中 , 每 次 需要 一 个 推荐 
得 分 时 , 部 要 计算 多 个 物品 的 相似 度 得 分 , 这 些 得 分 记录 的 是 物品 之 间 的 相似 度 。 因此 在 需要 时 ， 
这 些 记录 可 以 被 为 一 个 用 户 重 复 使 用 。 在 实际 中 , 男 一 个 普 超 的 做 法 就 是 离线 计算 并 保存 相似 度 


下 





























梓 
~ 





推荐 引擎 面临 的 另 一 个 问题 就 是 如 何在 缺乏 数据 时 给 出 好 的 推荐 。 这 称 为 冷 启动 ( cold-start ) 14 
问题 ， 处 理 起 来 十 分 困难 。 这 个 问题 的 另 一 个 说 法 是 ,用 户 不 会 喜欢 一 个 无 效 的 物品 ,而 用 户 不 











266 第 14 章 利用 SVD 简化 数据 





喜欢 的 物品 叉 无 效 。" 如 果 推 荐 只 是 一 个 可 有 可 无 的 功能 ， 那 么 上 述 问 题 倒 也 不 大 。 但 是 如 果 应 
用 的 成 功 与 否 和 推荐 的 成 功 与 否 密切 相关 ， 那 么 问题 就 变 得 相当 严重 了 。 

冷 局 动 问题 的 解决 方案 ， 就 是 将 推荐 看 成 是 搜索 问题 。 在 内 部 表现 上 , 不 同 的 解决 办 法 虽然 
有 所 不 同 , 但 是 对 用 户 而 言 却 都 是 透明 的 。 为 了 将 推荐 看 成 是 搜索 问题 ， 我 们 可 能 要 使 用 所 需要 
推荐 物品 的 属性 。 在 餐馆 菜肴 的 例子 中 ,我 们 可 以 通过 各 种 标签 来 标记 荣 看 , 比如 素食 .美式 BBQ、 
价格 很 贯 等 。 同 时 ， 我 们 也 可 以 将 这 些 属 性 作为 相似 度 计 算 所 需要 的 数据 ， 这 被 称 为 基于 内 容 
(content-based ) 的 推荐 。 可 能 ， 基 于 内 容 的 推荐 并 不 如 我 们 前 面 介 绍 的 基于 协同 过 滤 的 推荐 效 末 
好 ， 但 我 们 拥有 它 ， 这 就 是 个 恨 好 的 开始 。 


14.6 示例 : 基于 SVD 的 图 像 压 缩 


在 本 市 中 , 我 们 将 会 了 解 一 个 很 好 的 天 于 如 何 将 SVD 应 用 于 图 像 压 绚 的 例子 。 通过 可 视 化 的 
方式 , 该 例子 使 得 我 们 很 容易 就 能 看 到 SVD 对 数据 近似 的 效果 。 在 代码 库 中 ,我 们 包含 了 一 张 手 
写 的 数字 图 像 ， 该 图 像 在 第 2 章 使 用 过 。 原 始 的 图 像 大 小 是 32x32=1024 像 系 ， 我 们 能 否 使 用 更 少 
的 像 系 来 表示 这 张 图 呢 ?” 如 末 能 对 图 像 进行 压缩 ， 那 么 就 可 以 市 省 空间 或 市 完 开销 了 。 

我 们 可 以 使 用 SVD 来 对 数据 降 维 ,从 而 实现 岁 像 的 压缩 。 下 面 我 们 驶 会 看 到 利用 SVD 的 手写 
数字 图 像 的 压缩 过 程 了 。 在 下 面 的 程序 清单 中 包含 了 数字 的 谈 和 人 和 压缩 的 代码 。 有 要 了 解 最 后 的 压 
顷 效 灯 ， 我 们 对 压 见 后 的 图 像 进行 了 理 构 。 打 开 svdRec.py 文 件 并 加 入 如 下 代码 。 


程序 清单 14-4 图像 压 缩 函数 
def printMat (inMat, thresh=0.8): 
for i in range (32): 
for k in range (32): 
if float (inMat [i,k]) > thresh: 
print 1, 
else: print 0， 
print ''! 



























































def imgCompress (numSV=3, thresh=0.8): 

myl = [] 

for line in open('0 5.txt') .readlines (): 
newRow = [|] 
for i in range (32): 

newRow.append (int (line[il])) 

myl .append (newRow) 

myMat = mat (my1) 

print "***x*original mat 工 XXX 关 大 火炎 类 

printMat (myMat, thresh) 

U,Sigma,VvT = la.svd (myMat) 

















J 也 就 是 说 ， 在 协同 过 滤 场 景 下 ， 由 于 新 物品 到 来 时 由 于 缺乏 所 有 用 户 对 其 的 喜好 信息 ， 因 此 无 法 判断 每 个 用 户 对 
其 的 喜好 。 而 无 法 判断 茶 个 用 户 对 其 的 喜好 ， 也 驶 无 法 利用 该 商品 。 译 者 注 
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SigRecon = mat (zeros ( (numSV, numSsV),)) 
for k in range (numSV) : 
SigRecon[k,k] = Sigma [kl] 
reconMat = U[:, :numSV]*SigRecon*VT[:numSV, :1] 
print "****reconstructed matrix using %d singular valuesS*****x*! 要 numSV 
printMat (reconMat, thresh) 


上 述 程序 中 第 一 个 函数 printMat () 的 作用 是 打印 矩阵 。 由 于 和 矩阵 包含 了 浮 点 数 ， 因 此 必须 
定义 浅 色 和 深 色 。 这 里 通过 一 个 阔 值 来 界定 , 后 面 也 可 以 调节 该 值 , 该 函数 裔 历 所 有 的 矩阵 元 素 ， 
当 元 素 大 于 阅 值 时 打印 1， 否 则 打印 0。 

下 一 个 函数 实现 了 图 像 的 压缩 。 它 允许 基于 任意 给 定 的 奇异 值 数 目 来 重 构图 像 。 该 函数 构建 
了 一 个 列表 ， 然 后 打开 文本 文件 ， 并 从 文件 中 以 数值 方式 读 和 字符。 在 和 矩阵 调和 人 之后, 我们 就 可 
以 在 屏 草 上 输出 该 矩阵 了 。 接 下 来 就 开始 对 原始 图 像 进 行 SVD 分 解 并 重 构 岁 像 。 在 程序 中 , 通过 
将 Sigma 重 新 构成 SigRecon 来 实现 这 一 点 。Sigma 是 一 个 对 角 和 矩阵 , 因此 需要 建立 一 个 全 0 矩阵， 
然后 将 前 面 的 那些 奇异 值 填 充 到 对 角 线 上 。 最 后 ,通过 截断 的 g 和 V 和 矩阵 , 用 sigRecon 得 到 重 构 
后 的 矩阵 ， 该 矩阵 通过 printMat () 因数 输出 。 

下 面 看 看 该 多数 的 运行 效果 : 


>>> reload (svdRec,) 
<module 'svdRec' from 'svdRec. 
>>> SvdRec .imgCompress (2) 
***x*OoOriginal matI 工 XXX 炎炎 炎炎 大 
00000 0 00000 0 
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利用 SVD 简化 数据 


000000000011I11I11I1111111110000000 
000000000011I11I1I1I 11111111110000000 
000000000001111I1I 1111I11100000000 0 
00000000000011 1 11111 11111000000000 0 
00000000000000111111000000000000 


32) 
****reconstructed matrix using 2 singular VvalueS****** 


(32, 


0 .0000000000000000000000000000000 
0 .0000000000000000000000000000000 
0 .0000000000001111100000000000000 
00000000000011111111000000000000 
0000000000011111111l11100000000000 
0000000000111111111l11110000000000 
0000000000111111111l11110000000000 
00000000011110000000001000000000 
00000000111100000000001100000000 
00000000111100000000001110000000 
00000000111100000000001110000000 
00000000111100000000001110000000 
00000000111100000000001110000000 
00000000111100000000001110000000 
00000000111100000000001110000000 
00000000111100000000001110000000 
00000000111100000000001110000000 
00000000111100000000001110000000 
00000000111100000000001110000000 
00000000111100000000001110000000 
00000000111100000000001110000000 
0 .000000011110000000000111000000D0 
00000000111100000000001110000000 
00000000111100000000001110000000 
00000000111100000000001110000000 
00000000111100000000001100000000 
0000000000111111111l1111100000000D0 
0000000000111111111l11110000000000 
0000000000111111111l11110000000000 
00000000000011111111100000000000 
00000000000011111111000000000000 
00000000000000000000000000000000 


二 -个 
需要 多 少 个 





可 以 看 到 ， 只 需要 两 个 奇异 值 就 能 相当 精确 地 对 图 像 实现 重 构 。 那 么 , 我们 到 展 
0-1 的 数字 来 重 构 图 像 呢 7? U 和 亚都 是 32 x 2 的 矩阵， 有 两 个 奇异 值 。 因 此 总 数字 数目 是 


130。 和 原 数 目 1024 相 比 ， 我 们 获得 了 几乎 10 倍 的 压缩 比 。 
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法 。 协同 过 滤 的 核心 是 相似 度 计算 方法 , 有 很 多 相似 度 计算 方法 都 可 以 用 于 计算 物品 或 用 户 之 间 
的 相似 度 。 通 过 在 低 维 空间 下 计算 相似 度 ，SVD 捉 高 了 推荐 系 引 擎 的 效 末 。 

在 大 规模 数据 集 上 , SVD 的 计算 和 推荐 可 能 是 一 个 很 困难 的 工程 问题 。 通过 离线 方式 来 进行 
SVD 分 解 和 相似 度 计算 ， 是 一 种 减少 元 余 计算 和 推荐 所 需 时 间 的 办 法 。 在 下 一 章 中 , 我 们 将 介绍 
在 大 数据 集 上 进行 机 带 学 习 的 一 些 工 具 。 














大 数据 与 MapReduce 





本 章 内 容 

DQ MapReduce 

口 Python 中 Hadoop 流 的 使 用 

口 使 用 mrjob 库 将 MapReduce 自 动 化 

口 利用 Pegasos 算 法 并 行 训练 支持 问 量 机 





各 听 人 说 :“ 兄 第 ， 你 举 的 例子 是 不 错 ,， 但 我 的 数据 太 大 了 !” 训 无 疑问 ， 工 作 中 所 使 用 的 数 
据 集 将 会 比 本 书 的 例子 大 很 多 。 随 着 大 量 设备 连 上 互联 网 加 上 用 户 也 对 基于 数据 的 决策 很 感 兴 
趣 ， 所 收集 到 的 数据 已 经 远 远 超出 了 我 们 的 处 理 能 力 。 羡 运 的 是 , 一 些 开 源 的 软件 项 目 提 供 了 海 
量 数据 处 理 的 解决 方案 ， 其 中 一 个 项 目 就 是 Hadoop， 它 采用 Java 语 言 编写 ， 支 持 在 大 量 机 器 上 分 
布 式 处 理 数 据 。 

假想 你 为 一 家 网 络 购物 商店 工作 ， 有 很 多 用 户 来 访问 网 站 ， 其 中 有 一 些 人 会 购买 商品 ， 有 一 
些 人 则 在 随意 浏览 后 离开 了 网 站 。 对 于 你 来 说 , 可 能 很 想 识别 那些 有 购物 意愿 的 用 户 。 如 何 实现 
这 一 点 ?可 以 浏览 Web 服 务 帮 日 志 找 出 每 个 人 所 访问 的 网 页 。 日 志 中 或 许 还 会 记录 其 他 行为 ， 如 
果 这 样 ， 就 可 以 基于 这 些 行为 来 训练 分 类 问 。 唯 一 的 问题 在 于 数据 集 可 能 会 非常 大 ， 在 单机 上 训 
练 算法 可 能 要 运行 好 几 天 。 本 草 就 将 介绍 一 些 实用 的 工具 来 解决 这 样 的 问题 , 包括 Hadoop 以 及 一 
些 基于 Hadoop 的 Python 工具 包 。 

Hadoop 是 MapReduce 框 架 的 一 个 免费 开源 实现 ， 本 曹 首 先 简 单 介 绍 MapReduce 和 Hadoop 项 
日 , 然后 学 习 如 何 使 用 Python 编写 MapReduce 作 业 ”。 这 些 作 业 先 在 单机 上 进行 测试 , 之 后 将 使 用 
亚马逊 的 Web 服 务 在 大 量 机 天 上 并 行 执行 。 一 旦 能 够 束 练 运行 MapReduce 作 业 ， 本 童 我 们 就 可 以 
讨论 基于 MapReduce 处 理 机 需 学 习 算 法 任务 的 一 般 解 决 方案 。 在 本 和 草 中 还 将 看 到 一 个 可 以 在 
Python 中 目 动 执行 MapReduce 作 业 的 mrjob 框 架 。 最 后 ， 介 绍 如 何 用 mrjob 构 建 分 布 式 SVM， 在 大 
量 的 机 硕 上 并 行 训 练 分 类 关 。 









































OQ 一 个 作业 即 指 把 一 个 MapReduce 程 序 应 用 到 一 个 数据 集 上 。 一 一 译 者 注 
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15.1 MapReduce: 分 布 式 计算 的 框架 


MapReduce 
优点 : 可 在 短 时 间 内 完成 大 量 工作 。 
缺点 : 算法 必须 经 过 重 写 ， 需 要 对 系统 工程 有 一 定 的 理解 。 
适用 数据 类 型 : 数值 型 和 标 称 型 数据 。 


MapReduce 是 一 个 软件 框 契 ， 可 以 将 单个 计算 作业 分 配给 多 合计 算 机 执行 。 它 假定 这 些 作业 
在 单机 上 需要 很 长 的 运行 时 间 , 因此 使 用 多 人 台 机 需 缩 短 运 行 时 间 。 笛 见 的 例子 是 日 党 统计 数字 的 
汇总 ， 该 任务 单机 上 执行 时 间 将 超过 一 整 天 。 

& 管 有 人 声称 他 们 已 经 独立 开发 过 类 似 的 框架 ， 美国 还 是 把 MapReduce 的 专利 颁发 给 了 
Google。Google 公 司 的 Jeffrey Dean 和 Sanjay Ghemawat 在 2004 年 的 一 篇 论文 中 第 一 次 提出 了 这 个 
思想 ， 该 论文 的 题目 是 “MapReduce: Simplified Data Processing on Large Clusters”“"MapReduce 
的 名 字 由 因数 式 编程 中 党 用 的 map 和 reduce 两 个 单词 组 成 。 

MapReduce 在 大 量 市 点 组 成 的 集群 上 运行 。 它 的 工作 流程 是 : 单个 作业 被 分 成 很 多 小 份 ， 输 
人 数据 也 被 切 厂 分 发 到 每 个 证 点 ,各 个 市 点 只 在 本 地 数据 上 做 运算 ,对 应 的 运算 代码 称 为 mapper， 
这 个 过 程 被 称 作 map 阶段 。 每 个 mapper 的 输出 通过 某 种 方式 组 合 (一 般 还 会 做 排序 )。 排 序 后 的 
结 采 再 被 分 成 小 份 分 发 到 各 个 和 点 进行 下 一 步 处 理工 作 。 第 二 步 的 处 理 阶 段 被 称 为 reduce 阶 段 ， 
对 应 的 运行 代码 被 称 为 reducer。reducer 的 输出 就 是 程序 的 最 终 执行 结果 。 

MapReduce 的 优势 在 于 ， 它 使 得 程序 以 并 行 方 式 执行 。 如 果 集 群 由 10 个 市 点 组 成 ， 而 原 
先 的 作业 需要 10 个 小 时 来 完成 ， 那 么 应 用 MapReduce， 该 作业 将 在 一 个 多 小 时 之 后 得 到 同样 
的 结果 。 举 个 例子 ， 给 出 过 去 100 年 内 中 国 每 个 省 每 天 的 正确 气温 数据 ， 我 们 想 知 道 近 100 年 
中 内 的 最 高 气温 。 这 里 的 数据 格式 为 : <province><date><temp>。 为 了 统计 该 时 段 内 的 最 
高 温度 ， 可 以 和 完 将 这 些 数 据 根 据 市 点 数 分 成 很 多 份 ， 每 个 市 点 各 目 寻 找 本 机 数据 集 上 的 最 高 
温度 。 这 样 每 个 mapper 将 产生 一 个 温度 ， 形 如 <“max”><temp>， 也 就 是 所 有 的 mapper 虱 会 
产生 相同 的 key:“max” 字 符 串 。 最 后 只 需要 一 个 reducer 来 比较 所 有 mapper 的 输出 ,就 能 得 到 
全 局 的 最 高 温度 值 。 



























































一 二 一 


注意 ”在 任何 时 候 ， 每 个 mapper 或 reducer 之 间 都 不 进行 通信 ”。 每 个 节点 只 处 理 自己 的 事务 ， 
上 且 在 本 地 分 配 的 数据 集 上 运算 。 


(DJ. Dean, S. Ghemawat, “MapReduce: Simplified Data Processing on Large Clusters,” OSDI ’04: 6th Symposium on 
Operating System Design and Implementa tion, San Francisco, CA, December, 2004. 

@) map 、reduce 一 般 都 不 翻译 ,sort、combine 有 人 分 别 翻译 成 排序 、 合 并 。mapper 和 reducer 分 别 是 指 进行 nap 和 reduce 
操作 的 程序 或 节点 ，key/value 有 人 翻译 成 键 / 值 。 这 几 个 词 ， 在 本 章 均 未 翻译 。 译 者 注 

(3) 这 是 指 mapper 各 自 之 间 不 通信 ，reducer 各 自 之 间 不 通信 ， 而 reducer 会 接收 mapper 生 成 的 数据 。 一 一 译 者 注 
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不 同类 型 的 作业 可 能 需要 不 同 数 目的 reducer。 再 回 到 温度 统计 的 例子 , 虽然 这 次 使 用 的 数据 集 
相同 , 但 不 同 的 是 这 里 要 找 出 每 年 的 最 高 温度 。 这 样 的 话 , mapper 习 先 找到 每 年 的 最 大 温度 并 输出 ， 
所 以 中 间 数据 的 格式 将 形 如 <year><temp> 。 此 外 , 还 需要 保证 所 有 同一 年 的 数据 传递 给 同一 个 
reducer， 这 由 map 和 reduce 阶 段 中 间 的 sort 阶 段 来 完成 。 该 例 中 也 给 出 了 MapReduce 中 值得 注意 的 一 
点 ， 即 数据 会 以 Key/value 对 的 形式 传递 。 这 里 , 年 代 ( year ) 是 key, 温度 (temp ) 是 value。 因 此 sort 
阶段 将 按照 年 代 把 数据 分 类 ， 之 后 合并 。 最 终 每 个 reducer 就 会 收 到 相同 的 key 信 。 

从 上 述 例子 可 以 看 出 ，reducer 的 数量 并 不 是 固定 的 。 此 外 ， 在 MapReduce 的 框 染 中 还 有 其 他 
一 些 灵 活 的 配置 选项 。MapReduce 的 整个 编 配 工作 由 主 节 点 ( master node ) 控制 。 这 些 主 节 点 控 
制 整个 MapReduce 作 业 编 配 ， 包 括 每 份 数据 存放 的 节点 位 置 ， 以 及 map 、sort 和 reduce 等 阶段 的 时 
友 控 制 等 。 此 外 ， 主 市 点 还 要 包含 容错 机 制 。 一 般 地 ， 每 份 mapper 的 输入 数据 会 同时 分 发 到 多 个 
节点 形成 多 份 副 本 ， 用 于 事务 的 失效 人 处理。 一 个 MapReduce 集 群 的 示意图 如 图 15-1 所 示 。 
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图 15-1 MapReduce 框 染 的 示意 图 。 在 该 集群 中 有 3 台 双 核 机 各 ， 如 果 机 帮 0 失 效 ， 作 业 仍 可 





以 正常 继续 


图 15-1 的 每 台 机 需 都 有 两 个 处 理 硕 , 可 以 同时 处 理 两 个 map 或 者 reduce 人 任务。 如 果 机 需 0 在 map 
阶段 宕 机 ， 主 节点 将 会 发 现 这 一 点 。 主 节点 在 发 现 该 问题 之 后 ， 会 将 机 需 0 移 出 集群 ， 并 在 剩余 
的 节点 上 继续 执行 作业 。 在 一 些 MapReduce 的 实现 中 ， 在 多 个 机 右上 都 保存 有 数据 的 多 个 备份 ， 
例如 在 机 各 0 上 存放 的 输入 数据 可 能 还 存放 在 机 大 1 上 ， 以 防 机 各 0 出 现 问 题 。 同 时 ， 每 个 市 点 都 
必须 与 主 世 点 通信 , 表明 目 己 工作 正 背 。 如 采 某 节点 失效 或 者 工作 异 凋 ， 主 节点 将 重 局 该 万 点 或 
者 将 该 方 点 移出 可 用 机 右 池 。 
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总 结 一 下 上 面 几 个 例子 中 关于 MapReduce 的 学 习 要 点 : 

口 主 节 点 控制 MapReduce 的 作业 流程 ; 

口 MapReduce 的 作业 可 以 分 成 map 任 务 和 reduce 任 务 ; 

口 map 任 务 之 间 不 做 数据 交流 ，reduce 任 务 也 一 样 ; 

口 在 map 和 和 reduce 阶 段 中 间 ， 有 一 个 sort 或 combine| 阶 段 ; 

口 数据 被 重复 存放 在 不 同 的 机 希 上 ， 以 防 某 个 机 天 失效 ; 

口 mapper 和 reducer 传 输 的 数据 形式 为 key/value 对 。 

Apache 的 Hadoop 项 目 是 MapReduce 框 架 的 一 个 实现 。 下 一 方 将 开始 讨论 Hadoop 项 目 ， 并 介 
绍 如 何在 Python 中 使 用 它 。 


15.2 Hadoop 流 


Hadoop 是 一 个 开源 的 Java 项 目 ， 为 运行 MapReduce 作 业 提 供 了 大 量 所 需 的 功能 。 除 了 分 布 式 
计算 之 外 ，Hadoop 目 市 分 布 式 文 件 系 统 。 

本 书 既 不 是 Java， 也 不 是 Hadoop 的 教材 ， 因 此 本 市 只 对 Hadoop 做 简单 介绍 ， 只 要 能 满足 在 
Python 中 用 Hadoop 玉 执行 MapReduce 作 业 的 需求 即 可 。 如 来 读 者 想 对 Hadoop 做 深入 理解 ,可 以 阅 
读 《Hadoop 实 成 〉》" 或 者 浏览 Hadoop 官 方 网 站 上 的 文档 ( http://hadoop.apache.org/ )。 此 外 ,Mahout 
in action“ 一 书 也 为 在 MapReduce 下 实现 机 楷 学 习 算法 提供 了 很 好 的 参考 资料 。 

Hadoop 可 以 运行 Java 之 外 的 其 他 语言 编写 的 分 布 式 程序 。 因 为 本 书 以 Python 为 主 ， 所 以 
下 面 将 使 用 Python 编写 MapReduce 代 码 ， 并 在 Hadoop 流 中 运行 。Hadoop 流 (http:/hadoop. 
apache. org/ common/docs/current/streaming.html ) 很 像 Linux 系 统 中 的 管道 ( 管道 使 用 符号 | ， 
可 以 将 一 个 命令 的 输出 作为 另 一 个 命令 的 输入 )。 如 果 用 mapperpy 调 用 mapper,， 用 reducerpy 调 
用 reducer， 那 么 Hadoop 流 就 可 以 像 Linux 命 令 一 样 执行 ， 例 如 : 


cat inputFile.txt | Python mapper.py | sort | python reducer.py > 
outputFile.txt 


这 样 ， 类 似 的 Hadoop 流 就 可 以 在 多 台 机 器 上 分 布 式 执行 ， 用 户 可 以 通过 Linux 命 令 来 测试 
Python 语言 编写 的 MapReduce 脚 本 。 


15.2.1 分布 式 计 算 均 值 和 方差 的 mapper 


接 下 来 我 们 将 构建 一 个 海量 数据 上 分 布 式 计算 均值 和 方差 的 MapReduce 作 业 。 示 范 起 见 ， 
这 里 只 选取 了 一 个 小 数据 集 。 在 文本 编辑 髓 中 创建 文件 mrMeanMapperpy， 并 加 入 如 下 程序 清 
中 的 代码 。 




















GD Chuck Lam, Hadoop in Action (Manning Publications, 2010)， 中 文 版 由 人 民 邮 电 出 版 社 出 版 。 
@) Sean Owen, Robin Anil Ted Dunning, and Ellen Friedman, Mahout in Action (Manning Publications, 2011)， 中 文 版 即将 
由 人 民 邮 电 出 版 社 出 版 。 
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程序 清单 15-1 分 布 式 均值 和 方差 计算 的 mapper 


import sys 
from numpy import mat, mean, power 
def read input (file): 


for line in file: 
yield line.rstrip() 


input = read input (sys.stdin) 
input = [float (line) for line in inputl] 
numInputs = len (input) 


input = mat (input) 
sqInput = power (input,2) 


print "%Sd\t$f\t%f'" $ (numInputs, mean (input), mean (sgqgInput)) 
print >> sys.stderr, "report: still alive" 


这 是 一 个 很 简单 的 例子 : 该 mapper 首 先 按 行 读 取 所 有 的 输入 并 创建 一 组 对 应 的 浮 点 数 , 然后 
得 到 数组 的 长 度 并 创建 NumPy 和 矩阵 。 再 对 所 有 的 值 进行 平方 , 最 后 将 均值 和 平方 后 的 均值 发 送出 
去 。 这 些 值 将 用 于 计算 全 局 的 均值 和 方差 。 





注意 一 个 好 的 习惯 是 向 标准 错误 输出 发 送 报 告 。 如 果菜 作业 10 分 钟 内 没有 报告 输出 ， 则 将 
被 Hadoop 中 止 。 





下 面 看 看 程序 清单 15-1 的 运行 效 末 。 首 先 确 认 一 下 在 下 载 的 源 但 中 有 一 个 文件 inputFile.txt， 
其 中 包含 了 100 个 数 。 在 正式 使 用 Hadoop 之 前 , 先 来 测试 一 下 mapper。 在 Linux 终 端 执 行 以 下 命令 : 

cat inputFile.txt | Python mrMeanMapper.py 

如 有 果 在 Windows 系 统 下 ， 可 在 DOS 窗 口 输入 以 下 命令 : 


Python mrMeanMapper.py < inputFile.txt 


ep 全 

运行 结果 如 下 : 

100 0.509570 0.344439 
report: still alive 


其 中 第 一 行 是 标准 输出 ,也 就 是 reducer 的 输入 ; 第 二 行 是 标准 错误 输出 ， 即 对 主 市 扩 做 出 的 
啊 应 报告 ， 表明 本 市 点 工作 正 第。 


15.2.2 ”分 布 式 计算 均值 和 方差 的 reducer 


至 此 ，mapper 已 经 可 以 工作 了 ,下 面 介绍 reducer。 根据 前 面 的 介绍 ，mapper 接 受 原始 的 输入 
并 产生 中 间 值 传递 给 reducer。 很 多 mapper 是 并 行 执行 的 ， 所 以 需要 将 这 些 mapper 的 输出 合并 成 一 
个 值 。 接 下 来 给 出 reducer 的 代码 : 将 中 间 的 keyvalue 对 进行 组 合 。 打 开 文 本 编辑 需 ， 建 立 文 件 
mrMeanReducer.py， 然 后 输入 程序 清单 15-2 的 代码 。 
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程序 清单 15-2 ”分 布 式 均值 和 方差 计算 的 reducer 


import sys 
from numpy import mat, mean, power 


def read input (file): 
for line in file: 
yield line.rstrip() 


input = read input (sys.stdin) 

mapperOut = [line.split('\t') for line in input] 
cumVal=0.0 

CumSumSq=0.0 


CUumN=0.0 
for instance in mapperOut: 
n] = float (instance[0]) 


CuUmN += n] 
cumVal += nj*float (instance[1l]) 
cumSumSq += nj*float (instance[2]) 
mean = cumVal/cumN 
varSum = (cumSumSq - 2*+mean*cumVal + cumN*mean*mean) /cumN 
print "Sg%Sd\tS$f\t%f" $ (cumN, mean, varSum) 
print >> sys.stderr, "report: still alive" 


程序 清单 15-2 就 是 reducer 的 代码 ， 它 接收 程序 清单 15-1 的 输出 ， 并 将 它们 合并 成 为 全 局 的 均 
值 和 方 考 ， 从 而 完成 任务 。 

你 可 以 在 目 己 的 单机 上 用 下 面 的 命令 测试 一 下 : 

scat inputFile.txt | python mrMeanMapper.py | python mrMeanReducer.py 
如 果 是 DOS 环 境 ， 键 入 如 下 命令 : 

spython mrMeanMapper.py < inputFile.txt | python mrMeanReducer.py 

后 面 的 草 节 将 介绍 如 何在 多 从 机 硕 上 分 布 式 运行 该 代码 。 你 手边 或 许 没 有 10 台 机 融 , 没有 问 
题 ， 下 区 就 会 介绍 如 何 租用 服务 大 。 


15.3 在 Amazon 网 络 服务 上 运行 Hadoop 程序 


如 果 要 在 100 台 机 硕 上 同时 运行 MapReduce 作 业 ， 那 么 就 需要 找到 100 台 机 各 ， 可 以 采取 购买 
的 方式 ， 或 者 从 其 他 地 方 租用 。Amazon 公 司 通过 Amazon 网 络 服务 ( Amazon Web Services, AWS,， 
http://aws.amazon.com/ )， 将 它 的 大 规 檬 计算 基础 设施 租 便 给 开发 者 。 

AWS 提 供 网 站 、 流 媒体 、 移 动 应 用 等 类 似 的 服务 ， 其 中 存储 、 种 帘 和 计算 能 力 按 价 收 费 ， 用 
户 可 以 仪 为 使 用 的 部 分 按时 缴费 ,无需 长 期 的 合同 。 这 种 仅 为 所 需 买 单 的 形式 , 使 得 AWS 很 有 放 
惑 力 。 例 如， 当 你 临时 需要 使 用 1000 台 机 器 时 ,可 以 在 AWS 上 申请 并 做 几 天 实验 。 几 天 后 当 你 发 
现 当 前 的 方 宁 不 可 行 ， 就 即时 关 挥 它 , 不 需要 岩 为 这 1000 台 机 妖 支 出 任何 费用 。 本 市 首先 介绍 几 
个 日 前 在 AWS 上 可 用 的 服务 ， 然 后 介绍 AWS 上 运行 环境 的 搭建 方法 ， 最 后 给 出 了 一 个 在 AWS 上 
运行 Hadoop 流 作业 的 例子 。 














276 第 15 章 大 数据 与 MapReduce 


15.3.1 AWS 上 的 可 用 服务 


AWS 上 提供 了 大 量 可 用 的 服务 。 在 行内 人 士 看 来 , 这 些 服务 的 名 字 很 容易 理解 ,而 在 新 手 看 
来 则 比较 神秘 。 目 前 AWS 还 在 不 停 地 演变 , 也 在 不 断 地 添加 一 些 新 的 服务 。 下 面 给 出 一 些 基本 的 
稳定 的 服务 。 

口 S3 简单 存储 服务 ， 用 于 在 网 络 上 存储 数据 ， 需 要 与 其 他 AWS 产 品 配合 使 用 。 用 户 可 

以 租借 一 组 存储 设备 ， 并 按照 数据 量 大 小 及 存储 时 间 来 付费 。 

口 EC2 一 一 弹性 计算 云 ( Elastic Compute Cloud )， 是 使 用 服务 融 镜 像 的 一 项 服务 。 它 是 很 多 
AWS 系 统 的 核心 ， 通 过 配置 该 服务 需 可 以 运行 大 多 数 的 操作 系统 。 它 使 得 服务 硕 可 以 以 
镜像 的 方式 在 几 分 钟 内 启动 ， 用 户 可 以 创建 、 存 储 和 共享 这 些 镜 像 。EC2 中 “弹性 ”的 由 
来 是 该 服务 能 够 迅速 便捷 地 根据 需求 增加 服务 的 数量 。 

口 Elastic MapReduce ( EMR ) 一 一 弹性 MapReduce， 它 是 AWS 的 MapReduce 实 现 ， 搭 建 
于 稍 旧 版 本 的 Hadoop 之 上 上 (Amazon 和布 望 保持 一 个 稳定 的 版 本 ,因此 做 了 些 修改 , 没有 
使 用 最 新 的 Hadoop )。 它 提供 了 一 个 很 好 的 GUI, 并 简化 了 Hadoop 任 务 的 局 动 方式 。 用 
户 不 需要 因为 集群 琐碎 的 配置 ( 如 Hadoop 系 统 的 文件 导入 或 Hadoop 机 需 的 参数 修改 ) 
而 多 花心 思 。 在 EMR 上 ， 用 户 可 以 运行 Java 作 业 或 Hadoop 流 作业 ， 本 书 将 对 后 者 进行 
介绍 。 

另外 , 很 多 其 他 服务 也 是 可 用 的 , 本 书 将 看 重 介绍 EMR。 下 面 还 需要 用 到 S$S3 服 务 , 因为 EMR 
需要 从 S3 上 读 取 文 件 并 启动 安装 Hadoop 的 EC2 服 务 央 镜 像 。 


























15.3.2 ”开启 Amazon 网 络 服务 之 旅 


使 用 AWS 之 前 ， 首 先 需要 创建 AWS 账 号 。 开 通 AWS 账 号 还 需要 一 张 信 用 卡 ， 后 面 章节 中 的 
练习 将 花费 大 约 1 美 元 的 费用 。 打 开 http://aws.amazon.conmy 可 以 看 到 如 图 15-2 所 示 的 界面 ,在 右上 
部 有 “现在 注册 ”( Sign Up Now ) 按钮 。 点 击 后 按照 指令 进行 ， 经 过 三 个 页 面 就 可 以 完成 AWS 
的 注册 。 注意 ， 你 需要 注册 S3、EC2 和 EMR 三 项 服务 。 

建立 了 AWS 账 号 后 ， 登 录 进 AWS 探 制 台 并 点 击 EC2、Elastic MapReduce 和 S3 选 项 卡 , 确认 你 
是 否 已 经 注册 了 这 些 服务 。 如 果 你 没有 注册 某 项 服务 ,会 看 到 如 图 15-3 所 示 的 提示 。 








2 
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凤 Sign In to the AWS Management Console NW Create an AWS Account " English 
Search: Entire Site 确 
”Developers ”Community ”” Support Account 


Ss to Japan ， 2 力 子 Zk 雁 日 本 忆 上 陆 Sign up for a free 
tions and services 新 LU 东京 OD 子 一 名 七 > 儿 一 从 已 Amazon Web Services Account 
okyo datacenters. 也 FY 一 > 信 材 一 上 又 在 


> Learn more... 


oe : < [LT TY TY TEL TY Get Started 
Business Managers 


站 , . Learn how Amazon Web Services 
Japan Earthquake and Pacific Tsunami Relief Fund enables you to reach business 


goals faster: 


ma Solutions & Use Cases 





a Security Center 











图 15-2 ”http://aws.amazon.com/ 页 面 右上 部 给 出 了 注册 AWS 账 号 的 按钮 








Elastic Beanstalk 53 EC2 VPC CloudWatch Elastic MapReduce CloudFront RDS SNS 


Account needs subscription 


人 A You must sign up for Amazon RDS before you can use the Amazon RDS Console. 


It's quick and free to sign up, just click the button below. 





© 2008 - 2011, Amazon Web Services LLC or its affiliates. All right reserved. Feedback Support Privacy Policy Terms of Use 
An amazoncom. company 


图 15-3 ”服务 未 注册 时 的 AWS 控 制 台 提示 信息 。 如 果 你 的 训 览 锅 在 $S3 、EC2 和 Elastic 
MapReduce 服 务 页 面 也 有 相应 提示 ， 请 注册 这 些 服务 
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这 样 就 做 好 了 在 Amazon 集 群 上 运行 Hadoop 作 业 的 准备 , 下 一 节 将 介绍 在 EMR 上 运行 Hadoop 
的 具体 流程 。 


15.3.3 在 EMR 上 运行 Hadoop 作业 


注册 了 所 需 的 Amazon 服 务 之 后 ， 登 录 AWS 控 制 台 并 点 击 $S3 选 项 卡 。 这 里 需要 将 文件 上 传 ， 
以 便 AWS 能 找到 我 们 提供 的 文件 。 

(1) 首先 需要 创建 一 个 新 的 bucket ( 可 以 将 bucket 看 做 是 一 个 驱动 需 )。 例 如 ， 创 建 了 一 个 叫 
做 rustbucket 的 bucket。 注意 ，bucket 的 名 字 是 唯一 的 , 所 有 用 户 均 可 使 用 。 你 应 当 为 目 己 的 pucket 
创建 独特 的 名 字 。 

(2) 然后 创建 两 个 文件 夹 : mrMeanCode 和 mrMeanInput。 将 之 前 用 Python 编写 的 MapReduce 
代码 上 传 到 mrMeanCode， 另 一 个 目录 mrMeanInput 用 于 存放 Hadoop 作 业 的 输入 。 

(3) 在 已 创建 的 bucket 中 ( 如 rustbucket ) 上 传 文件 inputFile.txt 到 mrMeanInput 目 录 。 

(4) 将 文件 mrMeanMapperpy 和 mrMeanReducerpy 上 传 到 mrMeanCode 上 目录。 这样 就 完成 了 全 
部 所 需 文件 的 上 传 ， 也 做 好 了 在 多 人 台 机 需 上 局 动 第 一 个 Hadoop 作 业 的 准备 。 

(5) 点 击 Elastic MapReduce 选 项 卡 ， 点 击 “ 创 建新 作业 流 ”( Create New Job Flow ) 按钮 ， 并 
将 作业 流 命 名 为 nrMean007。 屏幕 上 可 以 看 到 如 图 15-4 所 示 的 页 面 , 在 下 方 还 有 两 个 复 选 框 和 一 
个 下 拉 杠 ， 选 择 “ 运 行 自己 的 应 用 程序 ”( Run Your Own Application ) 按钮 并 点 击 “ 继 续 ” 
( Continue ) 进入 到 下 一 步 。 














Create a New Job Flow Cancel |X 


Creating a job flow to process your data using Amazon Elastic MapReduce is simple and quick. Let's begin by giving your job flow a 
name and selecting its type. If you don't already have an application you'd like to run on Amazon Elastic MapReduce, samples are 
available to help you get started. 


Job Flow Name*: mrMean007| 


家 通 
pei PO A Streaming job flow runs a single Hadoop job consisting 
_ of map and reduce functions that you have uploaded to 

Run a sample application Amazon S3. The functions can be implemented in any of 
the following supported languages: Ruby, Perl, Python, 
= PHP, R, Bash, C++. 
Streaming [| 


* Requlred field 
Continue 








图 15-4 ” EMR 的 新 作业 流 创建 页 面 
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(6) 在 这 一 步 需要 设 定 Hadoop 的 输入 参数 。 如 果 这 些 参 数 设置 错误 ， 作 业 将 会 执行 失败 。 在 
“指定 参数 ”( Specify Parameters ) 页 面 的 对 应 字段 上 输入 下 面 的 内 容 : 

Input Location : <your bucket name>/mrMeanInput/inputFile.txt 

Output Location : <your bucket name>/mrMean007Log 

Mapper : "python s3n:// <your bucket name>/mrMeanCode/mrMeanMapper .py" 

Reducer : "python s3n:// <your bucket name>/mrMeanCode/mrMeanReducer.py'" 

可 以 将 “其 他 参数 ”( Extra Args ) 字段 留 空 。 该 字段 的 作用 是 指定 一 些 其 他 参数 ， 如 reducer 
的 数量 。 本 页 面 将 如 图 15-5 所 示 ， 点 击 “ 继 续 ”( Continue )。 





Create a New Job Flow Cancel |X 


加 
() 


SPECIFY PARAMETERS 


Specify Mapper and Reducer functions to run within the Job Flow. The mapper and reducers may be either (1) class names referring 
to a mapper or reducer class in Hadoop or (iI) locations In Amazon S3. (Click Here for a list of avallable tools to help you upload and 
download files from Amazon S53.) The format for specifying a location in Amazon S3 is bucket_name/path_name. The location should 
point to an executable program, for example a python program. Extra arguments are passed to the Hadoop streaming program 
and can specify things such as additional files to be loaded into the distributed cache. 


Input Location*: <your bucket name>/mrMeanlnput/lnputFile txt 


Output Location*: <your bucket name>/mrMean007/Log 
i Re 


Mapper*: “python s3n://<your bucket name>/mrMeanCode/mrMear 
Reducer*: "python s3n://<your bucket name>/mrMeanCode/mrMear 


Extra Args: 


Back 





= * Requlred field 
| Continue | 





图 15-5”EMR 的 指定 参数 页 面 


(7) 下 一 个 页 面 需要 设 定 EC2 的 服务 融 镜 像 ， 这 里 将 设 定 用 于 存储 数据 的 服务 融 数 量 ， 默 认 值 是 
2， 可 以 改 成 1。 你 也 可 以 按 需要 改变 EC2 服 务 器 镜像 的 类 型 ， 可 以 申请 一 个 大 内 存 高 运算 能 力 的 机 
售 ( 当然 也 花费 更 多 )。 实 际 上 ， 大 的 作业 经 稼 在 大 的 服务 需 镜 像 上 运行 ， 详 见 http:/aws. amazon. 
com/ec2/#instance 。 本 市 的 价 单 例子 可 以 选用 很 小 的 机 器。 本 页 面 如 图 15-6 所 示 ， 点 击 “ 继 续 ” 
( Continue )。 

(8) 下 一 个 是 “高 级 选项 ”( Advanced Options ) 页 面 ， 可 以 设 定 有 关 调 试 的 一 些 选项 。 务 必 
打开 日 志 选 项 ， 在 “亚马逊 S3 日 志 路 径 ”(Amazon S3 Log Path ) 里 添加 s3n: //<your bucket 
name>/mrMean007DebugLog。 内 有 注册 SimpleDB 才 能 开启 Hadoop 调 试 服务 ， 它 是 Amazon 的 访 
问 韭 天 系数 据 库 的 简单 工具 。 虽然 开局 了 该 服务 , 但 我 们 不 准备 使 用 它 来 调试 Hadoop 流 作业 。 妆 
一 个 Hadoop 作 业 失 败 , 会 有 一 些 失 败 信 息 写 和 人 上 述 目 录 , 回头 读 一 下 这 些 信息 就 可 以 分 析 在 哪里 
出 了 问题 。 整 个 页 面 如 图 15-7 所 示 ， 点 击 “ 继 续 ”( Continue )。 
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Create a New Job Flow Cancel |X 


CONFIGURE EC2 INSTANCES 
Specify the Master, Core and Task Nodes to run your job flow. For more than 20 instances, complete the limit request form. 


Master Instance Group: This EC2 instance assigns Hadoop tasks to Core and Task Nodes and monitors their status. 


Instance Type: Small (m1.small) 


[=| (© Request Spot Instance 


Core Instance Group: These EC2 instances run Hadoop tasks and store data using the Hadoop Distributed File System (HDFS). 
Recommended for capacity needed forthe life of your job flow. 


Instance Count: 1 


Instance Type: | Small (m1.small) [>] 回 Request Spot Instances 


Task Instance Group (Optional): These EC2 Instances run Hadoop tasks, but do not persist data. Recommended for capaclty 
needed on a temporary basis. 


Instance Count: 0 


Instance Type: Small (m1.small) [=| [| Request Spot Instances 


= * Requlred field 
Continue > 





图 15-6 ” 设 定 EMR 的 EC2 服 务 右 镜像 的 页 面 ， 在 该 页 面 上 可 以 设 定 MapReduce 作 业 所 需 的 服 
务 器 类 型 和 服务 器 数量 


Create a New Job Flow Cancel |X 


ADVANCED OPTIONS 


Here you can select an EC2 key pair, configure your cluster to Use VPC, set your job flow debugging options, and enter advanced 
job flow details such as whether it is a long running cluster. 


Amazon EC2 Key Pair: proceed without an EC2 Key Pair [x| 


Use an existing Key Pair to SSH into the master node of the Amazon EC2 cluster as the user "hadoop". 


Amazon VPC Subnet Id: Proceed without a VPC Subnet ID [=] 


Select a Subnet to run this job flow in a Virtual Private Cloud. Create a VPC 


Configure your logging options. Learn more. 


Amazon S53 Log Path s3://<your bucket name>/mrMean007DebugLog 
(Optional): 一 本 





The URL of the Amazon S3 bucket in which your job flow logs will be stored. 


Enable Debugging:@ Yes © No 


An index of your logs will be stored in Amazon SimpleDB. An Amazon S3 Log Path is required. 


Set advanced job flow options. 
Keep Alive © Yes © No This job flow will run until manually terminated. 


* Required field 
Continue 1a 





图 15-7 EMR 的 高 级 选项 页 面 ， 可 以 设 定 调试 文件 的 存放 位 置 ， 也 可 以 设 定 继续 上 
动 运行 机 制 。 作 业 失 败 还 可 以 设 定 登录 服务 右 所 需 的 登录 密 钥 。 如 果 想 检 
查 代 码 的 运行 环境 ， 登 录 服 务 右 再 查看 是 个 很 好 的 办 法 


(9) 关键 的 设置 已 经 完成 ， 可 以 在 接 下 来 的 引导 页 面 使 用 默认 的 设 定 , 一 直 点 “下 一 步 ” 
( Next ) 到 查看 ( Review ) 页 面 。 检查 一 下 所 有 的 配置 是 否 正 确 ,， 然后 点 击 底 部 的 “创建 作业 流 ” 
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( Create Job Flow ) 按钮 。 这 样 新 任务 就 创建 好 了 ， 在 下 一 个 页 面 点 击 “关闭 ”( Close ) 按钮 将 返 
器 EMR 控 制 台 。 当 作业 运行 的 时 候 , 可 以 在 控制 台 看 到 其 运行 状态 。 读者 不 必 担 心 运行 这 样 一 个 
小 作业 花费 了 这 么 多 时 间 ， 因 为 这 里 包含 了 新 的 服务 带 镜 像 的 配置 。 最 终 员 面 如 图 15-8 所 示 ( 可 
能 你 那里 不 会 有 这 么 多 的 失败 作业 )。 








Elastic Beanstalk  S3 EC2 VPC CloudWatch Elastic MapReduce , CloudFront RDS SNS 


Region: 其 US East ~ 对 Create New Job Flow 演 [B Show/Hide | 起 Refresh | @ Help 
Viewing: Al 所 1 to 6 of 6 Job Flovs 
Name State Creation Date Elapsed Time Normalized Instance Hours 
mrMean007 “STARTING 2011-02-22 15:21 PST 0 hours 0 minutes 0 
| My Job Flow5 BB COMPLETED 2011-02-22 14:22 PST 0 hours 2 minutes 1 
] My Job Flow4 i:S FAILED 2011-02-22 08:43 PST 0 hours 3 minutes 1 
DD My Job Flow2 “已 FAILED 2011-02-22 08:25 PST 0 hours 3 minutes 1 
证 My Job Flow2 £3 FAILED 2011-02-22 07:29 PST 0 hours 3 minutes 1 
| My Job Flow 5 哆 FAILED 2011-02-22 07:25 PST 0 hours 0 minutes 0 
| mrMean : FAILED 2011-02-22 07:17 PST 0 hours 0 minutes 0 


图 15-8 ” EMR 控制 台 显 示 出 了 一 些 MapReduce 作 业 ， 本 章 的 MapReduce 作 业已 经 在 这 张 图 中 启动 


新 建 的 任务 将 在 开始 运行 几 分 钟 之 后 完成 ， 可 以 通过 点 击 控 制 台 顶端 的 S3 选 项 卡 来 观察 S3 
的 输出 。 选 中 $3 控制 台 后 ， 点 击 之 前 创建 的 bucket ( 本 例 中 是 rustbucket )。 在 这 个 bucket 里 应 该 可 
以 看 到 一 个 mrMean007Log 目 录 。 双 击 打开 该 日 录 ， 可 以 看 到 一 个 文件 part-00000， 该 文件 就 是 
reducer 的 输出 。 双 击 下 载 该 文件 到 本 地 机 需 上 ， 用 文本 编辑 锅 打 开 该 文件 ， 绪 果 应 该 是 这 样 的 : 

100 0.509570 0.344439 

这 个 结果 与 单机 上 用 管道 得 到 的 测试 结果 一 样 ， 所 以 该 结果 是 正确 的 。 如 有 果 结 果 不 正确 ， 应 当 
怎样 找到 问题 所 在 呢 ” 退 回 到 EMR 选 项 卡 , 点 击 “ 已 经 完成 的 任务 ”( Completed Job ), 可 以 看 到 “ 调 
试 ”( Debug ) 按钮 ， 上 面 还 有 一 个 绿色 小 昆虫 的 动画 。 点 击 该 按钮 将 打开 调试 和 窗口， 可 以 访问 不 同 
的 日 志文 件 。 男 外 ， 点 击 “ 控 制 侨 ”( Controller ) 超 链接 ， 可 以 看 到 Hadoop 命 令 和 Hadoop 版 本 号 。 

现在 我 们 已 经 运行 了 一 个 Hadoop 流 作业 ， 下 面 将 介绍 如 何在 Hadoop 上 执行 机 需 学 习 算 法 。 
MapReduce 可 以 在 多 人 台 机 需 上 运行 很 多 程序 ， 但 这 些 程序 需要 做 一 些 修 改 。 



































不 使 用 AWS 
如 果 读 者 不 布 望 使 用 信用 卡 , 或 者 怕 泄 露 自己 的 信用 卡 信息 , 也 能 在 本 地 机 器 上 运行 同样 
的 作业 。 下 面 的 步骤 假定 你 已 经 安装 了 Hadoop (http:/hadoop.apache.org/common/docs/stable/# 
Getting+Started )。 
(1) 将 文件 复制 到 HDFS: 
>hadoop fs -copyFromLocal inputFile.txt mrmean-1i 


(2) 启动 任务 : 
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>hadoop jar S$HADOOP HOME/contrib/streaming/hadoop-0.20.2-stream- 
ing.jar -input mrmean-1 -output mrmean-o -mapper "python mrMeanMap- 
per.py" -reducer "python mrMeanReducer .py" 

(3) 观察 结果 : 


>hadoop fs -cat mrmean-o/part-00000 


(4) 下 载 结果 : 


>hadoop fs -copyToLocal mrmean-o/part-00000 . 


15.4 MapReduce 上 的 机 器 学 习 


在 10 台 机 需 上 使 用 MapReduce 并 不 能 等 价 于 当前 机 硕 10 倍 的 处 理 能 力 。 在 MapReduce 代 码 编 
写 合理 的 情况 下 , 可 能 会 近似 达到 这 样 的 性 能 , 但 不 是 每 个 程序 都 可 以 直接 提速 的 , map 和 reduce 
陋 数 需要 正确 编写 才 行 。 

很 多 机 需 学 习 算 法 不 能 直接 用 在 MapReduce 框 架 上 。 这 也 没关系 ， 正 如 老话 所 说 :“ 需 求 是 发 
明之 母 。 科学 家 和 工程 师 中 的 一 些 先 张 已 完成 了 大 多 数 帝 用 机 需 学 习 算法 的 MapReduce 实 现 。 

下 面 的 清单 简要 列 出 了 本 书 铝 用 的 机 需 学 习 算 法 和 对 应 的 MapReduce 实 现 。 

口 简单 贝 叶 斯 一 一 它 属于 为 数 不 多 的 可 以 很 卓然 地 使 用 MapReduce 的 算法 。 在 MapReduce 中 

计算 加 法 非常 容易 ， 而 人 简单 贝 叶 斯 正 需 要 统计 在 某 个 类 别 下 菜 特 征 的 概率 。 因 此 可 以 
将 每 个 指定 类 别 下 的 计算 作业 交 由 单个 的 mapper 处 理 , 然后 使 用 reducer 来 将 结果 加 和 。 

口 大 近邻 算法 一 一 该 算法 首先 试图 在 数据 集 上 找到 相似 向量 ， 即 便 数据 集 很 小 ， 这 个 步骤 也 
将 花费 大 量 的 时 间 。 在 海量 数据 下 ， 它 将 极 大 地 影响 日 常 沿 业 周 期 的 运转 。 一 个 提速 的 办 
法 是 构建 树 来 存储 数据 ， 利 用 树 形 结构 来 缩小 搜索 范围 。 该 方法 在 特征 数 小 于 10 的 情况 下 
效 采 很 好 。 高 维 数据 下 〈 如 文本 、 网 像 和 视频 ) 流行 的 近邻 查找 方法 是 局 部 敏感 哈 布 算法 。 

口 支持 向 量 机 (SVM ) 一 一 第 6 音 使 用 的 Platt SMO 算 法 在 MapReduce 框 架 下 难以 实现 。 但 有 
一 些 其 他 SVM 的 实现 使 用 随机 梯度 下 降 算法 求解 ， 如 Pegasos 算 法 。 另 外 ， 还 有 一 个 近似 
的 SVM 算法 叫做 最 邻近 文 持 回 量 机 (proximal SVM )， 求 解 更 快 并 且 易 于 在 MapReduce 框 
架 下 实现 "。 

口 奇异 值 分 解 一 一 Lanczos 算 法 是 一 个 有 效 的 求解 近似 特征 值 的 算法 。 该 算法 可 以 应 用 在 一 
系列 MapReduce 作 业 上 ， 从 而 有 效 地 找到 大 和 矩阵 的 奇异 值 。 另 外 ,该 算法 还 可 以 应 用 于 主 
成 分 分 析 。 

口 K- 均 值 聚 类 一 个 流行 的 分 布 式 聚 类 方法 叫做 canopy 聚 类 , 可 以 先 调 用 canopy 聚 类 法 取 
得 初始 的 [修复 ， 然 后 册 运 行 K- 均 值 聚 类 方法 。 






































() Glenn Fung, Olvi L. Mangasarian, “PSVM: Proximal Support Vector Machine,” http://www.cs.wisc.edu/dmi/svm/psvm/. 
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如 果 读者 有 兴趣 了 解 更 多 机 器 学 习 方法 的 MapReduce 实 现 , 可 以 访问 Apache 的 Mahout 项 目 主 
页 ( http://mahout.apache.org/ ) 以 及 参考 Mahout in 4ction 一 书 。 其 中 Mahout 项 目 以 Java 语 言 编写 ， 
该 书 也 对 处 理 大 规模 数据 的 实现 细节 做 了 很 详细 的 介绍 。 另 一 个 关于 MapReduce 很 棒 的 资源 是 
Jimmy Lin 和 Chris Dyer 写 的 Data Intensive Text Processing with Map/Reduce— 书 。 

接 下 来 将 介绍 一 个 可 以 运行 MapReduce 作 业 的 Python 工具 。 











15.5 在 Python 中 使 用 mriob 来 自动 化 MapReduce 


上 上 面 列举 的 算法 大 多 是 迭代 的 。 也 就 是 说 ， 它 们 不 能 用 一 次 MapReduce 作 业 来 完成 ， 而 通 向 
需要 多 步 。 在 15.3 节 中 ，Amazon 的 EMR 上 运行 MapReduce 作 业 只 是 一 个 简 例 。 如 采 想 在 大 数据 集 
上 运行 AdaBoost 算 法 该 怎么 办 呢 ? 如 果 想 运行 10 个 MapReduce 作 业 呢 ? 

有 一 些 框架 可 以 将 MapReduce 作 业 流 目 动 化 ， 例 如 Cascading 和 Oozie， 但 它们 不 文 持 在 
Amazon 的 EMR 上 执行 。Pig 可 以 在 EMR 上 执行 ,也 可 以 使 用 Python 脚本 ,但 需要 额外 学 习 一 种 
脚本 语言 。( Pig 是 一 个 Apache 项 目 , 为 文本 处 理 提供 高 级 编程 语言 , 可 以 将 文本 处 理 命令 转换 
成 Hadoop 的 MapReduce 作 业 。) 还 有 一 些 工 具 可 以 在 Python 中 运行 MapReduce 作 业 ， 如 本 书 将 
要 介绍 的 mrjob。 

mrjob”( http://packages.python.org/mrjob/ ) 之 前 是 Yelp (一 个 餐厅 点 评 网 站 ) 的 内 部 框架 ， 
它 在 2010 年 底 实 现 了 开源 。 读 者 可 以 参考 附录 A 来 学 习 如 何 安 装 和 使 用 。 本 书 将 介绍 如 何 使 用 
mrjob 重 写 之 前 的 全 局 均值 和 方差 计算 的 代码 ， 相 信访 者 能 体会 到 mrjob 的 方便 快捷 。( 需要 指出 
的 是 ，marjob 是 一 个 很 好 的 学 习 工 具 ， 但 仍然 使 用 Python 语言 编写 ， 如 果 想 获得 更 好 的 性 能 ， 应 
该 使 用 Java。 ) 








15.5.1 mrjob 与 EMR 的 无 缝 集成 


与 15.3 节 介绍 的 一 样 ， 本 节 将 使 用 mrjob 在 EMR 上 运行 Hadoop 流 ， 区 别 在 于 mrjob 不 需要 上 传 
数据 到 S3， 也 不 需要 担心 命令 输入 是 否 正 确 ， 所 有 这 些 都 由 mrjob 后 人 台 完 成 。 有 了 mrjob， 读 
者 还 可 以 在 自己 的 Hadoop 和 集群 上 运行 MapReduce 人 作业， 当然 也 可 以 在 单机 上 进行 测试 。 作 业 
在 单机 执行 和 在 EMR 执 行 之 间 的 切换 十 分 方便 。 例 如 ， 将 一 个 作业 在 单机 执行 ， 可 以 输入 以 下 
命令 ， 

$ python mrMean.py < inputFile.txt > myOut .txt 

如 果 要 在 EMR 上 运行 同样 的 任务 ， 可 以 执行 以 下 命令 : 

$ python mrMean.py -r emr < inputFile.txt > myOut .Ext 

在 1$.3 节 中 , 所 有 的 上 传 以 及 表单 填写 全 由 mrjob 上 自动 完成 。 读者 还 可 以 添加 一 条 在 本 地 的 Hadoop 
集群 上 执行 作业 的 命令 *， 也 可 以 添加 一 些 命令 行 参数 来 指定 本 作业 在 EMR 上 的 服务 器 类 型 和 数目 。 











GD mrjob 文 档 : http://packages.python.org/mrjob/index.html; 源 代码 : https://github.com/Yelp/mrjob. 
@) 意 指 除 了 上 面 两 条 命令 之 外 ， 再 加 一 条 。 译 者 注 
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另外 ,15$.3 节 中 的 mapper 和 reducer 分 别 存 于 两 个 不 同 的 文件 中 , 而 mrjob 中 的 mapper 和 和 reducer 
可 以 写 在 同一 个 脚本 中 。 下 菠 将 展示 该 脚本 的 内 容 ， 并 分 析 其 工作 原理 。 





15.5.2 mrjob 的 一 个 MapReduce 脚本 剂 析 


用 mrjob 可 以 做 很 多 事情 ， 本 书 仍 从 最 典型 的 MapReduce 作 业 开 始 介 绍 。 为 了 方便 阐述 ， 继 
续 沿 用 前 面 的 例子 , 计算 数据 集 的 均值 和 方差 。 这样 谈 者 可 以 更 专注 于 框 染 的 实现 细 方 ， 所 以 程 
序 清 单 1$-3 的 代码 与 程序 清单 1$-1 和 程序 清单 15-2 的 功能 一 致 。 打 开 文 本 编辑 器 ， 创 建 一 个 新 文 
件 mrMean.py， 并 加 入 下 面 程 序 清单 的 代码 。 
程序 清单 15-3 ”分 布 式 均值 方差 计算 的 mrjob 实 现 


from mrjob.job import MRUob 











class MRmean (MRJob ) : 


def init (self, *args, **kwargs): 
super (MRmean, self). init (*args, **kwargs) 
self.inCount = 0 
self.inSum = 0 
self.inSqSum = 0 


立 米 Mes 
def map (self, key, val): 接收 输入 数据 流 


if False: yield 

inVal = float (val) 
self.inCount += 1 
self.inSum += inVal 
self.inSqSum += inVal*inVal 


def map final (self): 1 所 有 输入 到 达 后 开始 处 理 


mn = self.inSum/self.inCount 
mnSd = self.inSgqSum/self.inCount 
yield (1, [self.inCount, mn, mnSsgqgl]) 


def reduce (self, key, packedVvalues): 
cumVal=0.0; cumSumSq=0.0; cumN=0.0 
for valArr in packedValues: 
n] = float (valArr[0]) 
CUMN += 1n] 
cumVal += nj*float (valArr|[1|]) 
CumSumSq += nj*float (valArr [2]) 
mean = cumVal/cumN 
var = (cumSumSq - 2*mean*cumVal + cumN*mean*mean) /cumN 
yield (mean, var) 


def steps (self): 
return ([self.mr (mapper=self.map, reducer=self.reduce,\ 
mapper final=self.map final)]) 
if name == ' main ': 
MRmean .un () 


该 代码 分 布 式 地 计算 了 均值 和 方差 。 输 入 文本 分 发 给 很 多 mappers 来 计算 中 间 值 ， 这 些 中 间 
值 再 通过 reducer 进 行 索 加 ， 从 而 计算 出 全 局 的 均值 和 方差 。 
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为 了 使 用 mrjob 库 ， 需 要 创建 一 个 新 的 MRjob 继 承 类 ， 在 本 例 中 该 类 的 类 名 为 MRmean。 代 码 
中 的 mapper 和 reducer 都 是 该 类 的 方法 , 此 外 还 有 一 个 叫做 steps () 的 方法 定义 了 执行 的 步 又 。 执 
行 顺 序 不 必 完 全 遵从 于 map-reduce 的 模式 ， 也 可 以 是 map-reduce-reduce-reduce， 或 者 map-reduce- 
map-reduce-map-reduce ( 下 节 会 给 出 相关 例子 )。 在 steps () 方 法 里 ,需要 为 mrjob 指 定 mapper 和 和 
reducer 的 名 称 。 如 果 未 给 出 ， 它 将 默认 调用 mapper 和 reducer 方 法 。 

首先 来 看 一 下 mapper 的 行为 : 它 类 似 于 for 循 环 , 在 每 行 输入 上 执行 同样 的 步 综 。 如 果 想 在 
收 到 所 有 的 输入 之 后 进行 某 些 处 理 , 可 以 考虑 放 在 mapper_final 中 实现 。 这 乍 看 起 来 有 些 古 怪 ， 
但 非常 实用 。 男 外 在 mapper () 和 mapper_final() 中 还 可 以 共享 状 态 。 所 以 在 上 述 例子 中 ， 首 
完 在 mapper () 中 对 输入 值 进行 积累 ， 所 有 值 收 集 完 毕 后 计算 出 均值 和 平方 均 仁 ， 最 后 把 这 些 值 
作为 中 间 值 通过 yielq 语 句 传 出 去 。 

中 间 值 以 key/value 对 的 形式 传递 。 如 果 想 传 出 去 多 个 中 间 值 ,一 个 好 的 办 法 是 将 它们 打包 成 
一 个 列表 。 这 些 值 在 map 阶 段 之 后 会 按照 key 来 排序 。Hadoop 提 供 了 更 改 排序 方法 的 选项 ， 但 默 
认 的 排序 方法 是 以 应 付 大 多 数 的 第 见 应 用 。 拥 有 相同 key 的 中 间 值 将 发 送 给 同一 个 reducer。 因 此 
你 需要 考虑 key 的 设计 ,使 得 在 sort 阶 段 后 相似 的 值 能 够 收集 在 一 起 。 这 里 所 有 的 mapper 都 使 用 “1” 
作为 key， 因 为 我 希望 所 有 的 中 间 值 都 在 同一 个 reducer 里 加 和 起 来 。” 

mrjob 里 的 reducer 与 mapper 有 一 些 不 同 之 处 ，reducer 的 输入 存放 在 迭代 器 对 象 里 。 为 了 能 读 
取 所 有 的 输入 ， 需 要 使 用 类 似 for 循 环 的 迭代 絮 。mapper 或 mapper_final 和 和 reducer 之 间 不 能 共 
享 状 态 ， 因 为 Python 脚 本 在 map 和 reduce 阶 段 中 间 没 有 保持 活动 。 如 果 需 要 在 mapper 和 和 reducer 之 
间 进 行 任何 通信 ,那么 只 能 通过 key/value 对 。 在 reducer 的 最 后 有 一 条 输出 语句， 该 语句 没 有 key， 
为 输出 的 key 值 已 经 固定 。 如 果 该 reducer 之 后 不 是 输出 而 是 执行 为 一 个 mapper， 那么 key 仍 需要 
赋值 。 

无 须 多 言 ， 下 面 看 一 下 实际 效果 ， 先 运行 一 下 mapper， 在 Linux/DOS 的 命令 行 输入 下 面 的 命 
令 〈 注 意 不 是 在 Python 提示 符 下 )。 其 中 的 文件 inputFile.txt 在 第 15 莉 的 代码 里 。 

spython mrMean.py --mapper < inputFile.txt 

运行 该 命令 后 ， 将 得 到 如 下 输出 : 

1 [100, 0.50956970000000001, 0.34443931307935999|] 

要 运行 整个 程序 ， 移 除 --mapper 选 项 。 


spython mrMean.py < inputFile.txt 


你 将 在 屏 必 上 看 到 很 多 中 间 步 又 的 摘 述 文字 ， 最 终 的 输出 如 下 : 












































Q 在 一 个 标准 的 map-reduce 流 程 中 ， 作 业 的 输入 即 mapper 的 输入 ，mapper 的 输出 也 称 为 中 间 值 ， 中 间 值 经 过 排序 、 
组 合 等 操作 会 转 为 reducer 的 输入 ， 而 reducer 的 输出 即 为 作业 的 输出 。 译 者 注 
@) 只 要 所 有 mapper 都 使 用 相同 的 key 就 可 以 。 当 然 ， 不 必 是 “1”， 也 可 以 是 其 他 值 。 一 一 译 者 广 
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streaming final output from c:\users\peter\appdata\local 
\temp\mrMean.Peter.20110228.172656.279000\output\part-00000 
0.50956970000000001 0.34443931307935999 

removing tmp directory c:\users\peter\appdata\local\ 
temp\mrMean.Peter.20110228.172656.279000 

To stream the valid output into a file, enter the following command: 
spython mrMean.py < inputFile.txt > outFile.txt 


最 后 ， 要 在 Amazon 的 EMR 上 运行 本 程序 ， 输 入 如 下 命令 (确保 你 已 经 设 定 了 环境 变量 AWS 
ACCESS_KEY_ID 和 AWS _SECRET ACCESS _ KEY， 这 些 变 量 的 设 定 见 附录 A )。 





spython mrMean.py -r emr < inputFile.txt > outFile.txt 
完成 了 mrjob 的 使 用 练习 ， 下 面 将 用 它 来 解决 一 些 机 可 学习 问题 。 上 文 提 到 ， 一 些 迭 代 算 法 
仅 使 用 EMR 难 以 完成 ， 因 此 下 一 市 将 介绍 如 何 用 mrjob 完 成 这 项 任务 。 


15.6 示例 : 分 布 式 SVM 的 Pegasos 算法 


第 4 章 介 绍 过 一 个 文本 分 类 算法 : 朴素 册 叶 斯 。 该 算法 将 文本 文档 看 做 是 词汇 空间 里 的 回 量 。 
第 6 草 又 介绍 了 效果 很 好 的 SVM 分 类 算法 ,该 算法 将 每 个 文档 看 做 是 成 千 上 万 个 特征 组 成 的 回 量 。 

在 机 带 尝 习 领 域 , 海量 文档 上 做 文本 分 类 面临 很 大 的 挑 成 。 怎 样 在 如 此 大 的 数据 上 训练 分 类 
避 呢 ?如 果 能 将 算法 分 成 并 行 的 子 任务 ， 那么 MapReduce 框 架 有 望 帮 我 们 实现 这 一 点 。 回 忆 第 6 
草 ,，SMO 算 法 一 次 优化 两 个 文 持 向 量 , 并 在 整个 数据 集 上 迭代 , 在 需要 注意 的 值 上 停止 。 该 算法 
看 上 去 并 不 容易 并 行 化 。 























在 MapReduce 框 架 上 使 用 SVM 的 一 般 方法 

(1) 收集 数据 : 数据 按 文本 格式 存放 。 

(2) 准备 数据 : 输入 数据 已 经 是 可 用 的 格式 ， 所 以 不 需 任 何 准 备 工 作 。 如 果 你 需要 解析 一 
个 大 规模 的 数据 集 ， 建 议 使 用 map 作 业 来 完成 ， 从 而 达到 并 行 处 理 的 目的 。 

(3) 分 析 数 据 : 无 。 

(4) 训练 算法 : 与 普通 的 SVM 一 样 ， 在 分 类 器 训练 上 仍 需 花费 大 量 的 时 间 。 

(5) 测试 算法 : 在 二 维 空间 上 可 视 化 之 后 ， 观 察 超 平面 ， 判 断 算法 是 否 有 效 。 

(6) 使 用 算法 : 本 例 不 会 展示 一 个 完整 的 应 用 ， 但 会 展示 如 何在 大 数据 集 上 训练 SVM。 该 
算法 其 中 一 个 应 用 场 最 就 是 文本 分 类 ， 通 常 在 文本 分 类 里 可 能 有 大 量 的 文档 和 成 千 上 
万 的 特征 。 





SMO 算 法 的 一 个 蔡 代 品 是 Pegasos 算 法 ， 后 者 可 以 很 容易 地 写成 MapReduce 的 形式 。 本 方 将 
分 析 Pegasos 算 法 ， 介 绍 如 何 写 出 分 布 式 版 本 的 Pegasos 算 法 ， 最 后 在 mrjob 中 运行 该 算法 。 
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15.6.1 Pegasos 算法 


Pegasos 是 指 原始 估计 梯度 求解 右 ( Primal Estimated sub-GrAdient Solver )。 该 算法 使 用 某 种 
形式 的 随机 梯度 下 降 方 法 来 解决 SVM 所 定义 的 优化 问题 ,人 研究 表明 该 算法 所 需 的 迭代 次 数 取 决 于 
用 户 所 期 望 的 精确 度 而 不 是 数据 集 的 大 小 ， 有 关 细 市 可 以 参考 原文 "。 原 文 有 长 文 和 短文 两 个 版 
本 ， 推 荐 阅读 长 文 。 

第 6 章 提 到 ，SVM 算 法 的 目的 是 找到 一 个 分 类 超 平 面 。 在 二 维 情况 下 也 就 是 要 找到 一 条 
百 线 ,， 将 两 类 数据 分 隔 开 来 。Pegasos 算 法 工作 流程 是 : 从 训练 集中 随机 挑选 一 些 样本 点 添加 
到 竺 处理 列表 中 ， 之 后 按 序 判断 每 个 样本 点 是 否 被 正确 分 类 ; 如 采 是 则 忽略 ， 如 条 不 是 则 将 
其 加 入 到 待 更 新 集合 。 批 处 理 完毕 后 ， 权 重 向 量 按照 这 些 钳 分 的 样本 进行 更 新 。 整 个 算法 循 
环 执 行 。 

上 述 算法 伪 代 码 如 下 : 

将 w 初 始 化 为 0 

对 每 次 批 处 理 

随机 选择 k 个 样本 点 〈 人 向 量 ) 
对 每 个 向 量 
如 果 该 向 量 被 错 分 : 
更 新 权重 向 量 W 
累加 对 ww 的 更 新 


为 了 解 实际 效果 ，Python 友 本 的 实现 见 程序 清单 1S-4。 
程序 清单 15-4 SVM 的 Pegasos 算 法 


def predict (w, Xx): 
return w*x.T 

















def batchpPpegasos (dataSsSet, labels, lam, T, k): 
m,n = shape (dataSet); w = zeros (n),; 
dataIndex = range (m) 
for 七 in range (1, T+1): 

wDelta = mat (zeros (n)) 
eta = 1.0/ (lam*t) 
random.shuffle (dataIndex) 
for ] in range (k): 
i = dataIndex[]j] 
p = predict (w, dataSsSet [i,:]) 


if labels[i]j*p < 1: -9 将 待 更 新 值 票 加 
wDelta += Labels[1]*aqatasSet [i,:] .入 
w= (1.0 - 1/t)x*xw + (eta/k) *wDelta 


return w 


GD S. Shalev-Shwartz, Y. Singer, N. Srebro, “Pegasos: Primal Estimated sub-GrAdient SOlver for SVM,” Proceedings of the 


24th International Conference on Machine Learning 2007. 
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程序 清单 1$-4 的 代码 是 Pegasos 算 法 的 串 行 版 本 。 输 入 值 T 和 K 分 别 设 定 了 迭代 次 数 和 待 处理 
列表 的 大 小 。 在 T 次 迭代 过 程 中 ， 每 次 需要 重新 计算 eta。 它 是 学 习 率 ， 代 表 了 权重 调整 幅度 的 
大 小 。 在 外 循环 中 ,需要 选择 男 一 批 样本 进行 下 一 次 批 处 理 ; 在 内 循环 中 执行 批 处 理 ， 将 分 类 错 
误 的 值 全 部 累加 之 后 更 新 权重 向 量 @。 

如 果 想 试 试 它 的 效果 , 可 以 用 第 6 鞋 的 数据 来 运行 本 例 程 序 。 本 书 不 会 对 该 代码 做 过 多 分 析 ， 
它 只 为 Pegasos 算 法 的 MapReduce 版 本 做 一 个 铺垫 。 下 节 将 在 mrjob 中 建立 并 运行 一 个 MapReduce 
版 本 的 Pegasos 算 法 。 











15.6.2 ”训练 算法 : 用 mrjob 实现 MapReduce 版 本 的 SVM 


本 节 将 用 MapReduce 来 实现 程序 清单 15-4 的 Pegasos 算 法 ,之 后 再 用 15.5 节 讨论 的 mrjob 框 染 运 
行 该 算法 。 首 先 要 明白 如 何 将 该 算法 划分 成 map 阶 段 和 reduce 阶 段 ， 确 认 哪 些 可 以 并 行 ， 哪 些 不 
能 并 行 。 

对 程序 清单 15-4 的 代码 运行 情况 稍 作 观察 将 会 发 现 ， 大 量 的 时 间 花 费 在 内 积 计算 上 。 为 外 ， 
内 积 运 算 可 以 并 行 ， 但 创建 新 的 权重 变量 w 是 不 能 并 行 的 。 这 就 是 将 算法 改写 为 MapReduce 作 业 
的 一 个 切 人 点 。 在 编写 mapper 和 reducer 的 代码 之 前 ， 先 完成 一 部 分 外 围 代码 。 打 开 文 本 编辑 侣 ， 
创建 一 个 新 文件 mrSVM.py， 然 后 在 该 文件 中 添加 下 面 程序 清单 的 代码 。 


程序 清单 15-5 ”mrjob 中 分 布 式 Pegasos 算 法 的 外 围 代码 


from mrjob.job import MRJOb 























import pickle 
from numpy import * 


class MRSvmMm (MRJOP): 


DEFAULT INPUT PROTOCOL = 'json value' 
def init (self, *args, **kwargs): 
super (MRsvm, self). init (*args, **kwargs) 


self .data = pickle.load (open(\ 
'<path to your ch15 code directory>\svmDat27')) 
Selt.w = 0 
self.eta = 0.69 
self.dataList = [ 
self.k = self.options.batchsize 
self .numMappers = 1 
self.t = 1 


def configure options (self): 

super (MRsvm, self) .configure options () 

self.add passthrough option ( 
'--ijterations', dest='iterations', default=2, type='int', 
help='T: number of iterations to run') 

self.add passthrough option ( 
'--batchsize', dest='batchsize', default=100, type='int', 
help='k: number of data points in a batch') 
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def steps (self): 
return ([self.mr (mapper=self.map, mapper final=self.map fin,\ 
reducer=self.reduce) ]*self .options.iterations) 


if name == ' main ': 
MRSVvMm.run () 


序 清单 1$-$ 的 代码 进行 了 一 些 设 定 ， 从 而 保证 了 map 和 reduce 阶 段 的 正确 执行 。 在 程序 开 

次 ， 四 NumPy 和 Pickle 模 块 分 别 通 过 一 条 include 语 句 导 人 ,之 后 创建 了 一 个 mrjob 类 MRsvnm， 
其 中 _init __() 方 法 初始 化 了 一 些 在 map 和 reduce 阶 段 用 到 的 变量 。Python 的 模块 Pickle 在 加 载 
不 同 版 本 的 Python 文 件 时 会 出 现 问 题 。 为 此 , 我 将 Python2.6 和 2.7 两 个 版 本 对 应 的 数据 文件 各 目 存 
为 svmDat26 和 和 Ds 

对 应 于 于 命令 行 输入 的 参数 ，configure_options () 方 法 建立 了 一 些 变 量 ,， 包括 从 代 次 数 
(T)、 待 处 理 列表 的 大 小 (kk )。 这 些 参 数 都 是 可 选 的 ， 如 果 未 指定 ， 它们 将 采用 默认 值 。 

Ee steps () 方 法 告诉 mrjob 应 该 做 什么 ， 以 什么 顺序 来 做 。 它 创建 了 一 个 Python 的 列 
表 ， 包 含 map、map_fin 和 reduce 这 几 个 步 比 ， 然 后 将 该 列表 乘 以 迭代 次 数 ， 即 在 每 次 迭代 中 
重复 调用 这 个 列表 。 为 了 保证 作业 里 的 任务 链 能 正确 执行 ，mapper 需 要 能 够 正确 谈 取 reducer 
输出 的 数据 。 单个 MapReduce 作 业 中 无 须 考虑 这 个 因素 , 这 里 需要 特别 注意 输入 和 输出 格式 的 
对 应 。 

我 们 对 输入 和 输出 格式 进行 如 下 规定 : 


Mapper 




















Inputs: <mapperNum, valueList> 
Outputs: nothing 


Mapper_final 


Inputs: nothing 
Outputs: <1, valueList > 


Reducer 


Inputs: <mapperNum, valueList > 
Outputs: <mapperNum, valueList > 


传 入 的 值 是 列表 数组 ， ee 是 一 个 字符 串 , 用 于 表示 列表 的 后 面 存 放 的 
是 什么 类 型 的 数据 ， 例 如 {1'x' ,23} 和 ['w', [1,5,6]]。 每 个 mapper final 都 将 输出 同样 的 key， 
这 是 为 了 保证 所 有 的 key/value 对 都 输 op ea 

定义 好 了 输入 和 输出 之 后 , 下面 开 始 写 mapper 和 reducer 方 法 ,打开 mrSVM.py 文 件 并 在 MRsvm 
类 中 添加 下 面 的 代码 。 
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程序 清单 15-6 ”分布 式 Pegasos 算 法 的 mapper 和 reducer 代 码 


def map (self, mapperIid, inVals): 
if False: yield 
if inVals [0]=='w': 
self.w = InVals[I1j 
elif inVvals[0]=='x': 
self .dataList.append(inVvals [1]) 
elif inVvals[0]=='t': self.t = inVals [1] 
def map fin(self): 
labels = self.data[:,-1]; X=self .datal[l:,0:-1] 
if self.w == 0: self.w = [0.001]*shape (X) [1] 
for index in self.dataList: 
p = mat (self.w)*X[index,:].T 
if labels[index]j*p < 1.0: 
yield (1, ['u', index]) 
yield (1, ['w', self.w]) 
yield (1, ['t', self.t]) 
def reduce(self, , packedVals): 
for valArr in packedVals: 
if valArr[0]=='u': self.dataList.append (valArr [1]) 
elif valArr[0]=='w': self.w = valArr[1] 
elif valArr[0]=='t': self.t = valArr[1] 
labels = self.data[:,-1]; X=self .datal[l:,0:-1] 
wMat = mat (self .w); wDelta = mat (zeros (len (self.w))) 
for index in self.dataList: 


wDelta += float (labels [index|] )*X[index,:] 
eta = 1.0/(2.0*gself.t) 将 更 新 值 累 加 


wMat = (1.0 - 1.0/self.t)*wMat + (eta/self.k)*wDelta 
for mapperNum in range(1,self .numMappers+1): 
yield (mapperNum, ['w', wMat.tolist()[0] |]) 
if self.t < self.options.iterations: 
yield (mapperNum, ['t', self.t+1]) 
for ]j in range (self.k/self.numMappers): 
yield (mapperNum, ['x',\ 
random.randint (shape (self .data) [0]) 1]) 


程序 清单 15-6 里 的 第 一 个 方法 是 map () ， 这 也 是 分 布 式 的 部 分 ， 它 得 到 输入 值 并 存储 ， 以 便 
在 map_fin() 中 处 理 。 该 方法 文 持 三 种 类 型 的 输入 : w 癌 量 、t 或 者 x。t 是 迭代 次 数 ， 在 本 方法 
中 不 参与 运算 。 状 态 不 能 保存 ， 因 此 如 采 和 需要 在 每 次 迭代 时 保存 任何 变量 并 留 给 下 一 次 迭代 ， 可 
以 使 用 key/value 对 传递 该 值 ， 抑 或 是 将 其 保存 在 人 磁盘 上 。 显 然 前 者 更 容易 实现 ， 速 度 也 更 快 。 

map_fin() 方 法 在 所 有 输入 到 达 后 开始 执行 。 这 时 已 经 获得 了 权重 问 量 w 和 本 次 批 处 理 中 的 
一 组 x 值 。 每 个 x 值 是 一 个 整数 ， 它 并 不 是 数据 本 时 ,而 是 索引 。 数据 存储 在 人 磁盘 上 ， 当 脚本 执行 
的 时 候 读 入 到 内 存 中 。 当 map_fin() 局 动 时 , 它 首先 将 数据 分 成 标签 和 数据 ,然后 在 本 次 批 处 理 
的 数据 ( 存储 在 self .dataList 里 ) 上 进行 迭代 ， 如 果 有 任何 值 被 销 分 就 将 其 输出 给 reducer。 
为 了 在 mapper 和 reducer 之 间 保 存 状 态 ，w 回 量 和 ft 值 都 应 被 发 送 给 reducer。 

最 后 是 reduce() 函数 ， 对 应 本 例 只 有 一 个 reducer 执 行 。 该 函数 首先 迭代 所 有 的 key/value 对 
并 将 值 解 包 到 一 个 局 部 变量 qatalist 里 。 之 后 qataList 里 的 值 都 将 用 于 更 新 权重 问 量 w， 更 新 
量 在 wDpelta 中 完成 累加 人 @, 然后 , wMat 按 照 wDelta 和 学 习 率 eta 进 行 更 新 , 在 wMat 更 新 完毕 后 ， 
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又 可 以 重新 开始 整个 过 程 : 一 个 新 的 批 处 理 过 程 开 始 ， 随 机 选择 一 组 回 量 并 和 输出。 注意 ， 这 些 回 
量 的 key 是 mapper 编 号 。 
为 了 看 一 下 该 算法 的 执行 效果 , 还 需要 用 一 些 类 似 于 reducer 输 出 的 数据 作为 输入 数据 启动 该 
任务 ,我 为 此 附 上 了 一 个 文件 kickStart.txt。 在 本 机 上 执行 前 面 的 代码 可 以 用 下 面 的 命令 : 


spython mrSVvM.py < kickStart.txt 





streaming final output from c:\users\peter\appdata\local\temp 
\mrSVM.Peter.20110301.011916.373000\output\part-00000 

1 ["w", [0.51349820499999987, -0.084934502500000009]] 
removing tmp directory c:\users\peter\appdata\local\temp 
\mrSVM.Peter.20110301.011916.373000 


这 样 就 输出 了 结果 。 经 过 2 次 和 50 次 迭代 后 的 分 类 面 如 图 15-9 所 示 。 





a 一 4 一 2 0 2 4 6 8 
图 15-9 ”经 过 多 次 迭代 的 分 布 式 Pegasos 算 法 执行 结果 。 该 算法 收敛 迅速 ， 
多 次 迭代 后 可 以 得 到 更 好 的 结 
如 果 想 在 EMR 上 运行 该 任务 ， 可 以 添加 运行 参数 : -r emr。 该 作业 默认 使 用 的 服务 右 个 数 
。 如 果 要 调整 的 话 ， 添 加 运行 参数 : --num-ec2-instances=2 (这 里 的 2 也 可 以 是 其 他 正 整 
整个 命令 如 下 : 


spython mrSVM.Py - emr --num-ec2-instances=3 < kickStart.txt > myLodg .七 XL 


要 查看 所 有 可 用 的 运行 参数 ， 输 入 spython mrSVM.py -ho 
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调试 mrjob 
调试 一 个 mrjob 脚 本 将 比 调试 一 个 简单 的 Python 脚本 棘手 得 多 。 这 里 仅 给 出 一 些 调试 建议 。 
口 确保 已 经 安装 了 所 有 所 需 的 部 件 : boto、simplejson 和 可 人选 的 PyYAML 。 
口 可 以 在 ~/.mrjob.conf 文 件 中 设 定 一 些 参数 ， 确 定 它 们 是 正确 的 。 
口 在 将 作业 放 在 EMR 上 运行 之 前 , 尽 可 能 在 本 地 多 做 调试 。 能 在 花费 10 秒 就 发 现 一 个 错误 
的 情况 下 ， 就 不 要 花费 10 分 钟 才 发 现 一 个 错误 。 
口 检查 base temp dir 目录 ， 它 在 ~/.mrjob.conf 中 设 定 。 例 如 在 我 的 机 器 上 ， 该 目录 的 存放 位 
置 是 /scratch/$SUSER, 其 中 可 以 看 到 作业 的 输入 和 输出 ， 它 将 对 程序 的 调试 非常 有 帮助 。 
加 








到 现在 为 止 , 读者 已 经 学 习 了 如 何 编写 以 及 如 何在 大 量 机 各 上 运行 机 各 学 习作 业 ， 下 市 将 分 
析 这 样 做 的 必要 性 。 


15.7 ”你 真 的 需要 MapReduce 了 吗 ? 


不 需要 知道 你 是 谁 , 我 可 以 说 ,你 很 可 能 并 不 需要 使 用 MapReduce 和 Hadoop， 因 为 单机 的 处 
理 能 力 已 经 足够 强大 。 这 些 大 数据 的 工具 是 Google、Yelp 和 Facebook 等 公司 开发 的 ， 世 界 上 能 
多 少 这 样 的 公司 ? 

充分 利用 已 有 资源 可 以 节省 时 间 和 精力 。 如 条 你 的 作业 花费 了 太 多 的 时 间 ,， 先 问 问 目 己 : 代 
但 是 否 能 用 更 有 效率 的 语言 编写 ( 如 C 或 者 Java ) ? 如 果 博 言 已 经 足够 有 效率 ， 那 么 代码 是 否 经 
过 了 充分 的 优化 ? 影响 处 理 速 度 的 系统 瓶 领 在 哪里 , 是 内 存 还 是 处 理 套 ?或许 你 不 知道 这 些 问题 
的 答案 ， 找 一 些 人 做 些 咨询 或 讨论 将 非常 有 益 。 

大 多 数 人 意识 不 到 单 台 机 器 上 可 以 做 多 少数 学 运算 。 如 有 果 没 有 大 数据 的 问题 , 一 般 不 需要 用 
到 MapReduce 和 Hadoop。 但 对 MapReduce 和 Hadoop 稍 作 了 解 , 在 面临 大 数据 的 问题 时 知道 它们 能 
做 些 什 么 ， 还 是 很 棱 的 一 件 事情 。 
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当 运 算 需 求 超出 了 当前 资源 的 运算 能 力 ， 可 以 考虑 购买 更 好 的 机 和 右 。 为 一 个 情况 是 ,运算 需 
求 超出 了 合理 价位 下 所 能 购买 到 的 机 和 右 的 运算 能 力 。 其 中 一 个 解决 办 法 是 将 计算 转 成 并 行 的 作 
业 ，MapReduce 就 提供 了 这 种 方案 的 一 个 具体 实施 框架 。 在 MapReduce 中 ， 作 业 被 分 成 map 阶 段 
和 reduce 阶 段 。 

一 个 典型 的 作业 流程 是 先 使 用 map 阶 段 并 行 处 理 数 据 ， 之 后 将 这 些 数 据 在 reduce 阶 段 合 并 。 
这 种 多 对 一 的 模式 很 典型 ， 但 不 是 唯一 的 流程 方式 。mapper 和 reducer 之 间 传 输 数 据 的 形式 是 
key/value 对 。 一 般 地 ，map 阶 段 后 数据 还 会 按照 key 值 进行 排序 。Hadoop 是 一 个 流行 的 可 运行 
MapReduce 作 业 的 Java 项 目 ， 它 同时 也 提供 非 Java 作 业 的 运行 文 持 ， 叫 做 Hadoop 流 。 











15.8 本章 小 结 293 


Amazon 网 络 服务 (AWS ) 允许 用 户 按 时 长 租借 计算 资源 。 弹 性 MapReduce(EMR ) 是 Amazon 
网 络 服务 上 的 一 个 常用 工具 , 可 以 帮助 用 户 在 AWS 上 运行 Hadoop 流 作业 。 简单 的 单 步 MapReduce 
任务 可 以 在 EMR 管 理 控制 侣 上 实现 并 运行 。 更 复杂 的 任务 则 需要 额外 的 工具 。 其 中 一 个 相对 新 的 
开源 工具 是 mrjob， 使 用 该 工具 可 以 顺序 地 执行 大 量 的 MapReduce 作 业 。 经 过 很 少 的 配置 ，mrjob 
就 可 以 目 动 完成 AWS 上 的 各 种 繁杂 步骤 。 

很 多 机 带 学 习 算 法 都 可 以 很 容易 地 写成 MapReduce 作 业 。 而 另 一 些 机 融 学 习 算 法 需要 经 过 便 | 
新 性 的 修改 , 才能 在 MapReduce 上 运行 。SVM 是 一 个 强大 的 文本 分 类 工具 , 在 大 量 文档 上 训练 一 
个 分 类 硕 需 要 耗 纲 巨大 的 计算 资源 ， 而 Pegasos 算 法 可 以 分 布 式 地 训练 SVM 分 类 和 需 。 像 Pegasos 算 
法 一 样 ， 需 要 多 次 MapReduce 作 业 的 机 融 学 习 算 法 可 以 很 方便 地 使 用 mrjob 来 实现 。 

到 这 里 为 止 ， 本 书 的 正文 部 分 就 结束 了 ， 感 谢 你 的 阅读 。 硕 望 这 本 书 能 为 你 开启 新 的 大 门 。 
另外 , 在 机 需 学 习 的 数学 和 具体 实现 方面 还 有 很 多 东西 值得 探索 。 我 很 期 竺 你 能 使 用 在 本 书 里 学 
到 的 工具 和 技术 开发 出 一 些 有 趣 的 应 用 。 









































Python 入 门 








本 附录 痛 完 介绍 如 何在 三 种 流行 的 操作 系统 下 安装 Python， 同 时 人 简要 地 给 出 一 些 Python 的 人 
门 知识 ， 之 后 给 出 一 些 本 书 提 到 的 Python 模块 的 安 猴 方法 。 最 后 介绍 NumPy 库 ， 也 许 把 它 安排 在 
附录 B 与 那里 的 线性 代数 一 起 讨论 更 合适 。 


:六 


A.1 ”Python 安装 





要 运行 本 书 提供 的 代码 ， 需 要 安装 Python 2.7、Numpy 和 Matplotlib。 由 于 Python 不 支持 问 下 
兼容 ， 因 此 在 Python 3.x 下 ， 本 书 代码 不 一 定 能 正常 运行 。 上 述 模 块 最 简单 的 安 北方 法 就 是 用 软 
件 包 安 装 程 序 来 安 法 。 这 些 安 装 包 在 Mac OS 和 Linux 下 都 有 提供 。 














A.1.1 Windows 系统 


可 以 从 http://www.python.org/getit/ 下 载 ， 注 意 选 择 合适 的 Windows 安 装 包 (64 位 或 32 位 ) 并 
按说 明 进 行 操作 。 

可 以 从 http://sourceforge.net/projects/mumpy/files/NumPy/ 下 载 二 进 制 NumPy 文 件 ， 这 种 安装 方 
式 可 以 省 去 自己 编译 的 麻烦 。 

安装 完毕 后 就 可 以 打开 Python 命令 行 了 。 在 “运行 ”窗口 输入 cmd 命 令 打 开 命 令 提 示 符 ， 然 
后 键入 以 下 命令 : 

>c:\Python27\python .exe 

这 样 Python 命 令 行 就 会 启动 ， 同 时 可 以 看 到 当前 Python 的 版 本 号 和 编译 时 间 等 信息 。 

如 果 读 者 不 想 在 启动 Python 的 时 候 输 入 如 此 长 的 命令 (c:\Python27\python.exe), 可 以 
为 python 命 令 创建 一 个 别名 。 我 们 将 创建 别名 的 细节 留 给 读者 上 自己 实现 。 

如 采 想 找到 最 新 的 二 进 制 Matplotlib 文 件 ， 可 以 从 Matplotlib 主 页 http://matplotlib.source 
forge.net/ 找 到 最 新 下 载 地 址 。 它 的 安 效 相当 简单 , 下载 安装 包 后 , 通过 点 击 就 可 以 完成 安 疙 步骤 。 











A.1.2 Mac OS X 系统 


在 Mac OS X 下 安装 Python 、NumPy 和 Matplotlib 的 最 佳 方法 就 是 使 用 MacPorts。MacPorts 是 一 
个 免费 工具 ， 可 以 人 简化 Mac 系 统 上 软件 的 编译 和 安装 。 有 关 Macports 的 资料 参见 http://www. 
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macports.org/。 首 先 必 须 下 载 MacPorts ， 最 好 的 方法 就 是 下 载 正确 的 .4mg 文 件 。 在 该 站 点 选择 当 
前 版 本 的 Mac OS 义 系 统 对 应 的 .dmg 文 件 。 下 载 完 成 后 进行 安装 ，MacPorts 安 狐 完 毕 后 打开 一 个 新 
的 终端 窗口 ， 输 入 以 下 命令 : 

>sudo port install py27-matplot1lib 

这 会 同时 局 动 Python 、NumPy 和 Matplotlib 的 安 猴 。 根 据 机 融 配 置 和 网 络 速度 的 不 同 , 安 疲 时 
则 也 不 上 尽 相 同 ， 如 果 和 安装 过 程 持续 一 小 时 也 都 是 正常 的 。 

当然 ， 如 果 读 者 不 想 安 装 MacPorts， 也 可 以 分 别 安装 Python、NumPy 和 Matplotlib。 它 们 均 有 
Mac OS X 版 本 的 二 进 制 安 疹 软 件 包 ， 安 朔 起 来 也 很 方便 。 











A.1.3 Linux 


在 Debian/Ubuntu 系 统 下 安装 Python、NumPy 和 Matplotlib 的 最 佳 方式 是 使 用 apt-get 或 者 其 他 发 
布 版 本 中 相应 的 软件 包 管理 需 。 安 装 Matplotlib 时 会 检查 其 依赖 组 件 是 否 已 经 安装 。 由 于 Matplotlib 
依赖 于 Python 和 NumPy， 因 此 安装 Matplotlib 时 要 确保 已 经 安装 了 了 Python 和 NumPy。 

要 安装 Matplotlib ， 打 开 命 令 行 输入 以 下 命令 : 

>sudo apt-get install python-matplotlib 

根据 机 需 配 置 和 网 络 速 度 的 不 同 ， 安 闻 时 间 也 不 相同 ， 整 个 安 闻 过 程 需要 花费 一 些 时 间 。 

至 此 Python 已 经 安 疙 完毕 ， 下 方 将 介绍 Python 中 的 几 种 数据 类 型 。 




















A.2 Python 入 门 


下 面 介 绍 本 书 中 用 到 的 Python 功能 。 本 书 不 对 Python 做 详尽 的 描述 ， 如 果 读 者 有 兴趣 ， 推 
存 阅 读 Elkner、Downey 和 Meyers 的 在 线 人 免费 资料 :“How to Think Like a Computer Scientist” 
( http://openbookproject.net/thinkCS/ )。 本 市 还 将 介绍 容器 类 型 ( collection type ) 和 控制 结构 
( control structure )。 几乎 每 种 编程 语言 部 有 类 似 的 功能 ,这 里 着 重 给 出 它们 在 Python 中 的 用 法 。 
本 市 最 后 介绍 了 列表 推导 式 ( list comprehension ), 这 是 初学 Python 时 最 容易 感到 困惑 的 部 分 。 














A.2.1 容器 类 型 


Python 提 供 多 种 数据 类 型 来 存放 数据 项 集合 。 此 外 ， 用户 还 可 以 通过 添加 模块 创建 出 更 多 容 
僵 类 型 。 下 面 列 出 了 几 个 Python 中 常用 的 容 帮 。 

(1) 列表 (List ) 一 一 列表 是 Python 中 存放 有 序 对 象 的 容 带 ， 可 以 容纳 任何 数据 类 型 : 数值 、 
布尔 型 、 字 符 串 等 等 。 列 表 一 般 用 两 个 括号 来 表示 ,下 面 的 代码 演示 了 如 何 创建 一 个 名 为 jj 的 列 
表 ， 并 在 列表 内 诬 加 一 个 整数 和 一 个 字符 串 : 
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>>> jj=[【] 

>>> jj.append (1) 

>>> JjJj.append('nice hat') 

>>> ]] 

[1, nice hat'] 

当然 ， 还 可 以 把 元 素 直 接 放 在 列表 里 。 例 如 ， 上 述 列 表 jj 还 可 以 用 下 面 的 语句 一 次 性 构建 

出 来 : 

>>> ]] = [1i, ‘nice hat'] 

与 其 他 编程 语言 类 似 ，Python 中 也 有 数组 数据 类 型 。 但 数组 中 仪 能 存放 同一 种 类 型 的 数据 ， 
在 循环 的 时 候 它 的 性 能 优 于 列表 。 为 避免 跟 NumPy 中 的 数组 产生 混淆 ， 本 书 将 不 会 使 用 该 结构 。 

(2) 字典 ( Dictionary ) 字典 是 一 个 存放 无 序 的 键 值 映 射 ( key/value ) 类 型 数据 的 容 硕 ， 
键 的 类 型 可 以 是 数字 或 者 字符 串 。 在 其 他 编程 语言 中 ， 字 典 一 般 被 称 为 关联 数组 ( associative array ) 
或 者 上 映 映 《map )。 下 面 的 命令 创建 了 一 个 字典 并 在 其 中 加 入 了 两 个 元 系 : 





























wb Js 

>>> JjJj[l'dog']='dalmatian,' 

>>> jj[1]=42 

>>> ]] 

{1: 42, 'dog': 'dalmatian'} 

同样 ， 也 可 以 用 一 条 命令 来 完成 上 述 功能 : 
>>> jj = {1: 42, 'dog': 'dalmatian'} 








(3) 集 合 ( Set ) 一 一 这 里 的 集合 与 数学 中 集合 的 概念 类 似 ， 是 指 由 不 同 元 素 组 成 的 合集 。 下 
面 的 命令 可 以 从 列表 中 创建 一 个 集合 来 : 

>>> a=[1, 2, 2, 2, 4, 5, 5] 

>>> SA=Set (a) 


>>> SA 

set([1, 2, 4, 5]) 

集合 文 持 一 些 数 学 运算 ， 例 如 并 集 、 交 集 和 补 集 。 并 集 用 管道 的 符号 〈 | ) 来 表示 ， 交集 用 & 
从 号 来 表示 。 

>>> SB=set ([4, 5, 6, 7]) 

>>> SB 

set ([4, 5, 6, 7]) 

>>> SA-SB 

Set ([1I，2]) 

>>> SA | sB 

set ([1, 2, 4, 5, 6, 7]) 

>>> SA & SB 

set([4, 5]) 




















A.2.2 控制 结构 


Python 里 的 缩 进 非常 重要 ， 这 点 也 引 来 了 也 不 少 人 的 抱怨 , 但 严格 的 缩 进 也 能 迫使 编程 人 员 
写 出 干净 、 可 读 性 强 的 代码 。 在 for 循 环 、while 循 环 或 者 是 if 语句 中 ， 缩 进 用 来 标识 出 哪 一 段 
代码 属于 本 循环 。 这 里 的 绑 进 可 以 采用 空格 或 者 制 表 符 〈tab ) 来 完成 。 而 在 其 他 的 编程 语言 中 ， 
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一 般 使 用 大 括号 { } 或 者 关键 字 来 实现 这 一 点 。 所 以 通过 使 用 缩 进 来 代替 括号 ，Python 还 方 省 了 
不 少 代码 空间 。 下 面 来 看 一 些 第 用 控制 语句 的 写法 : 
(1) If 一 一 if 语 句 非 常 直观 ， 可 以 在 一 行内 完成 : 
>>> if jj < 3: print "it's less than three mann 
也 可 以 写成 多 行使 用 缩 进来 告诉 编译 各 本 语句 尚未 完成 。 这 两 种 格式 都 是 可 以 的 。 
J less than three man" 
a | 
多 条 件 语句 的 关键 字 el Se 1 f 在 Python 中 号 做 el if, fiels e 在 Python 中 仍 写 做 el Seo 
>>> if jj < 3: jj+=1 
. elif jj==3: jj+=0 
. else: jj = 0 
(2) For Python 中 的 for 循 环 与 Java 或 C++0x" 中 的 增强 的 for 循 环 类 似 , 它 的 意思 是 用 for 
循环 让 历 集 合 中 的 每 个 元 系 。 下 面 分 别 以 列表 、 集 合 和 字典 为 例 来 介绍 for 循 环 的 用 法 : 
>>> sB=set ([4, 5, 6, 7]) 


>>> for item in SB: 
print item 


























~ O00 小 ， 





0 sa 
下 面 裔 历 一 部 字典 : 
>>> jj={'dog': 'dalmatian', 1: 45} 
>>> for item in ]]: 

print item, jj [item] 
1 45 
dog dalmatian 


可 以 看 到 ， 字 典 中 的 元 素 会 按键 值 大 小 顺序 遍历 。 


A.2.3 ”列表 推导 式 


新 手 接触 到 Python 最 容易 困惑 的 地 方 之 一 就 是 列表 推导 式 。 列 表 推导 式 用 较为 优雅 的 方式 生 
成 列表 ， 从 而 避免 大 量 的 见 余 代码 。 但 语法 有 点 别扭 ， 下 面 完 看 一 下 实际 效果 然后 再 做 讨论 : 

>>> a=[1, 2, 2, 2, 4, 5, 5] 

>>> myList = [item*4 for item in al 

>>> myList 

[4, 8, 8, 8, 16, 20, 20] 











Q) C++0x, 后 来 也 称 为 C++11, 即 ISO/IEC 14882:2011, 是 目前 的 C++ 编 程 语言 的 正式 标准 。 它 取代 第 二 版 标准 ISO/IEC 
14882:2003( 第 一 版 ISO/IEC 14882:1998 公 开 于 1998 年 ,第 二 版 于 2003 年 更 新 , 分 别 通 称 C++98 以 及 C++03， 两 者 差 
异 很 小 )。 一 一 译 者 注 
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列表 推导 式 总 是 放 在 括号 中 。 上 述 代码 等 价 于 : 

>>> myList=[] 

>>> for item in a: 

myList.append (item*4) 

ee 

[4, 8, 8, 8, 16, 20, 20] 

可 以 看 到 ,得 到 的 myList 结 有 果 是 一 样 的 ,但 列表 推导 式 所 需 的 代码 更 少 。 可 能 造成 困惑 的 原 
因 是 加 入 到 列表 的 元 素 在 for 循 环 的 前 面 。 这 点 违背 了 从 左 到 右 的 文本 阅读 方式 。 

下 面 来 看 一 个 更 高 级 的 列表 推导 式 的 用 法 。 如 有 果 只 想 保留 大 于 2 的 元 又: 

>>> [item*4 for item in a if item>2] 

[16, 20, 20] 


用 列表 推导 式 可 以 写 出 更 有 创意 的 代码 ， 当 然 如 果 代 码 很 难 被 读 懂 ,应 尽量 实现 出 更 好 的 高 
可 读 性 的 代码 。 回 顾 完 这 些 基础 知识 之 后 ， 下 一 节 将 介绍 如 何 安装 本 书 用 到 的 各 种 Python 模块 。 

对 大 多 数 纯 Python 模 块 (没有 和 其 他 语言 的 绑 定 模块 ) 来 说 ， 直 接 进 入 代码 的 解压 目录 ， 输 入 
>python setup.py install 即 可 安装 。 这 是 上 默认 的 安装 方式 ， 如 有 果 对 模块 安装 方法 不 太 明 确 时 ， 
可 以 尝试 一 下 上 述 命令 。Python 将 把 这 些 模块 安装 在 Python 主 目录 下 的 Libs\site-packages 子 目 
录 里 ， 因 此 不 必 担 心 模块 究竟 被 安装 到 哪个 地 方 或 者 清空 下 载 目 录 会 不 会 把 它 删 掉 。 


















































A.3 NumpPy 快速 入 门 


NumPy 库 安装 完成 后 ， 读 者 可 能 在 想 :“ 这 东西 有 什么 好 人 处? ”正式 来 说 ，NumPy 是 Python 
的 一 个 矩阵 类 型 ,提供 了 大 量 和 矩阵 处 理 的 函数 。 非 正式 来 说 ， 它 是 一 个 使 运算 更 容易 、 执 行 更 十 
速 的 库 ， 因 为 它 的 内 部 运算 是 通过 C 语 言 而 不 是 Python 实现 的 。 

管 声 称 是 一 个 关于 和 矩阵 的 库 , NumPy 实 际 上 包含 了 两 种 基本 的 数据 类 型 : 数组 和 和 窃 阵 。 二 
者 在 处 理 上 稍 有 不 同 。 如 果 读 者 熟 悉 MATLAB “的 话 ， 和 矩阵 的 处 理 将 不 是 难事 。 在 使 用 标准 的 
Python 时 ， 处 理 这 两 种 数据 类 型 均 需 要 循环 语句 。 而 在 使 用 NumPy 时 则 可 以 省 去 这 些 语句 。 下 面 
是 数组 处 理 的 一 些 例子 : 


>>> from numpy import array 
































>>> mm=array ((1, 1, 1)) 

>>> pp=array ((1, 2, 3)) 

>>> pp+mm 

array ([2, 3, 4]) 
而 如 末 只 用 和 常规 Python 的 话 ， 完 成 上 述 功能 需要 使 用 for 循 环 。 

另外 在 Python 中 还 有 其 他 一 些 需要 循环 的 处 理 过 程 ， 例 如 在 每 个 元 素 上 乘 以 第 量 2， 而 在 
NumPy 下 就 可 以 写成 : 

>>> pp*2 

array ([2, 4, 6]) 


还 有 对 每 个 元 素平 方 : 
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>>> PPxrx2 
array ([1, 4, 9]) 


可 以 像 列表 中 一 样 访问 数组 里 的 元 系 : 


>>> ppl1] 
2 


NumPy 中 也 文 持 多 维 数组 : 
>>> ]] = array ([[1, 2, 3], [1, 1, 1]1]) 
多 维 数 组 中 的 元 素 也 可 以 像 列表 中 一 样 访问 : 
>>> jj[0] 
array ([1, 2, 3]) 
>>> jj[0] [1] 
2 
也 可 以 用 矩阵 方式 访问 : 
>>> jj[0,1] 
2 
当 把 两 个 数组 乘 起 来 的 时 候 ， 两 个 数组 的 元 素 将 对 应 相 乘 
>>> al=array ([1, 2,3]) 
>>> a2=array([0.3, 0.2, 0.3]) 


>>> al*a2 
array([ 0.3, 0.4, 0.9]) 


下 面 来 介绍 矩阵 。 








与 使 用 数组 一 样 ， 需要 从 NumPy 中 导入 matrix 或 者 mat 模 块 . 


>>> from numpy import mat, matrix 
上 述 NumPy 中 的 关键 字 mat 是 matrix 的 缩写 。 


>>> ss = mat([1, 2, 3]) 
>>> SS 

matrix([[l1, 2, 3]1]) 

>>> mm = matrix([1, 2, 3]) 
>>> mM 

matrix([[l1, 2, 3]1]) 


可 以 访问 矩 阵 中 的 单个 元 系 : 


>>> mm[0, 1] 
2 


可 以 把 Python 列 表 转 换 成 NomPy 窍 阵 : 


>>> pyList = [5, 11, 1605] 
>>> mat (pyList) 
matrix([I Bs 11, 1605]]) 


现在 试 试 将 上 述 两 个 矩阵 相 乘 : 


Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 





File "c:\Python27\lipb\site-packages\numpy\matrixlib\defmatrix.py'", 


line 330, 1 
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n mul 
return N.dot (self, asmatrix (other)) 
ValueError: objects are not aligned 


可 以 看 到 出 现 了 一 个 错误 : 乘法 不 能 执行 。 和 矩阵 数据 类 型 的 运算 会 强制 执行 数学 中 的 矩阵 运 
算 ，1x3 的 矩阵 是 不 能 与 1x3 的 矩阵 相 乘 的 ( 左 矩 阵 的 列 数 和 右 和 矩阵 的 行 数 必须 相等 )。 这 时 需要 
将 其 中 一 个 矩阵 转 置 ， 使 得 可 以 用 3x1 的 矩阵 乘 以 1x3 的 和 矩阵， 或 者 是 1x3 的 和 矩阵 乘 以 3x1 的 矩阵。 
NumPy 数 据 类 型 有 一 个 转 置 方法 ， 因 此 可 以 很 方便 地 进行 矩阵 乘法 运算 : 


>>> mmxSsS . 工 
matrix([[14]]) 


这 里 调用 了 .T 方 法 完成 了 ss 的 转 置 。 

知道 矩阵 的 大 小 有 助 于 上 述 对 齐 错 误 的 调试 , 可 以 通过 NumPy 中 的 shape 方 法 来 查看 矩阵 或 
者 数组 的 维 数 : 

>>> from numpy import shape 


>>> Shape (mm) 
(Ls 


如 采 需 要 把 乍 阵 mm 的 每 个 元 素 和 怎 阵 ss 的 每 个 元 素 对 应 相 乘 应 该 怎么 办 呢 ? 这 就 是 所 谓 的 
元 素 相 乘法 ， 可 以 使 用 NumPy 的 multiply 方 法 : 
>>> from numpy import multiply 


>>> multiply (mm, ss) 
matrix([[1, 4, 9]]) 


此 外 ， 和 矩阵 和 数组 还 有 很 多 有 用 的 方法 ， 如 排序 : 


>>> mmm. sort () 
>>> mm 
matrix([[1, 2, 3]]) 


注意 该 方法 是 原 地 排序 〈 即 排序 后 的 结 采 占用 原始 的 存储 空间 )， 所 以 如 琳 希 望 保留 数据 的 
原 序 ， 必 须 事先 做 一 份 揽 贝 。 也 可 以 使 用 argsort () 方 法 得 到 算 阵 中 每 个 元 素 的 排序 序号 : 


>>> dd=mat ([4, 5, 1]) 
>>> dd.argsort () 
matrix([[2, 0, 1]]) 


可 以 计算 矩阵 的 均值 : 


>>> dd.mean() 
3.3333333333333335 


再 回顾 一 下 多 维 数组 : 




















>>> jj = mat([[1，2，3,]，[8，8，8]]) 
>>> Shape (jj) 
2 学 ) 





这 是 一 个 2x3 的 矩阵, 如 和 东 想 取出 其 中 一 行 的 元 素 , 可 以 使 用 冒号 ( : ) 操 作 符 和 行 号 来 完成 。 
例如 ， 要 取出 第 一 行 元 素 ， 应 该 输入 : 


>>> ]][1，:] 
matrix([[8, 8, 8]]) 


还 可 以 指定 要 取出 元 素 的 范围 。 如 果 想 得 到 第 一 行 第 0 列 和 第 1 列 的 元 素 , 可 以 使 用 下 面 的 语句 : 








附录 A Python 入 门 301 


>>> jj[l1,0:2] 
matrix([[8, 8]]) 


这 种 索引 方法 能 够 简化 NumPy 的 编程 。 在 数组 和 和 矩阵 数据 类 型 之 外 ，NumPy 还 提供 了 很 多 
其 他 有 用 的 方法 。 我 建议 读者 浏览 完整 的 官方 文档 http://docs.scipy.org/doc/。 











A.4 Beautiful Soup 包 


本 书 使 用 Beautiful Soup 包 来 查找 和 解析 HTML。 要 安装 Beautiful Soup， 请 下 载 对 应 的 模块 . 
http:/www.crummy.com/ esi pa 

下 载 之 后 解压 ， 进 入 解压 目录 ， 输 入 下 面 的 命令 : 

>python setup.py install 
如 果 在 Linux 下 没有 权限 安装 的 话 ， 使 用 以 下 命 


>SUQo Python setup.py install 


Python 的 模块 大 多 都 是 这 样 安装 的 ， 记 得 阅读 每 个 模块 和 目 币 的 README .txt 文 件 。 


A.D Mnob 


Mrjob 用 于 在 Amazon 网 络 服务 上 启动 MapReduce 作 业 。 安装 mrjob 与 Python 中 其 他 模块 一 样 方 
便 : 打开 https:/github.com/Yelp/mrjob， 在 页 面 左边 可 以 看 到 “ZIP” 按 钮 ， 点 击 该 按钮 下 载 最 新 
的 版 本 。 用 unzip 和 untar 解 压 文 件 ， 进 入 到 解压 目录 后 在 Python 提示 符 下 输入 : 

>python setup .py install 

GitHub 已 经 列 出 了 很 多 代码 的 样 例 。 此 外 还 有 一 个 不 错 的 网 站 http://packages.python.org/ 
mrjob/ 也 提供 了 一 些 Python 的 官方 文档 。 

在 AWS 上 正式 使 用 mrjob 之 前 ， 需 要 设置 两 个 环境 变量 : S$AWS_ACCESS_KEY_ID 利 
$AWS_SECRET_ACCESS_KEY。 它们 的 值 应 该 设置 成 你 的 账号 ( 如 果 你 拥有 账号 的 话 ), 该 账号 信 
县 可 以 在 登陆 AWS 后 ， 在 Account > Security Credentials 页 面 看 到 。 

下 面 来 设 定 一 下 这 些 环境 变量 ， 打 开 命 令 行 提 示 符 ， 输 入 以 下 命令 

>Set ANS ACCESS KEY ID=1269696969696969 

验证 一 下 是 否 有 效 : 

>echo %AWS ACCESS KEY IDg% 
同样 的 方法 可 以 完成 AWS_SECRET_ACCESS_KEY 的 设置 。 

如 果 要 在 Mac OS X 上 设置 这 些 环境 变 量 ， 打 开 终端 窗口 〈 新 版 本 的 OS X 使 用 bash 命 令 行 )， 
输入 以 下 命令 : 


>AWS ACCESS KEY ID=1269696969696969 
>export AWS ACCESS KEY ID 


同样 的 方法 可 以 完成 awWS_SECRET_ACCESS _ KEY 的 设置 , 注意 字符 串 不 需要 引号 。Ubuntu Linux 
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也 默认 使 用 bash 命 令 行 , 所 以 上 述 Mac OS X 命 令 也 同样 适用 。 如 采 读 者 使 用 的 是 其 他 命令 行 , 请 
目 行 查找 相应 的 环境 变量 设置 方法 ， 不 会 很 难 。 





A.6 Vote Smart 


Vote Smart 项 目 是 一 个 美国 政治 数据 的 数据 源 , 见 http:/www.votesmart.org/。 用 户 能 通过 REST 
API 获 取 他 们 的 数据 。Sunlight 实 验 室 发 布 了 一 个 资料 齐全 的 Python 接 口 来 使 用 该 API。 为 外 ， 要 
使 用 该 API 还 需要 授权 密 钥 ( key )， 可 以 从 http://votesmart.org/services api.php 申 请 。 

上 述 Python 接 口 可 以 从 这 里 下 载 : https://github.com/sunlightlabs/python-votesmart。 点 击 页 面 
左边 的 “ZIP” 按 钮 下 载 最 新 的 版 本 。 下 载 完毕 后 解压 ， 进 入 解压 目录 并 输入 下 面 的 命令 : 


>python setup.py install 


稍 候 片 刻 ， 因 为 API 的 密 钥 需要 一 段 时 间 激 活 。 作 者 的 API 在 提交 申请 的 30 分 钟 后 才 得 以 激 
活 ， 激 活 后 你 将 收 到 一 封 邮件 通知 。 这 样 就 可 以 开始 找寻 那些 话 媚 的 政客 们 了 了! 





A./ Python-Twitter 


Python-Twitter 是 一 个 提供 访问 Twitter 数 据 接 口 的 模块 ， 可 以 在 GoogleCode 上 找到 : 
http://code.google.conmy/p/python-twitter/。 下 载 地 址 : http://code.google.com/p/python-twitter/downloads/list。 
解压 tar 包 后 进入 解压 目录 ， 输 入 以 下 命令 : 

>python setup.py install 

这 样 就 完成 了 该 模块 的 安装 ， 在 申请 到 Twitter API 的 密 钥 之 后 ， 你 就 可 以 用 Python 代 人 码 在 
Twitter 上 获取 和 发 布 信 息 了 








线性 代数 


为 理解 机 带 学 习 的 高 级 话题 , 需要 了 解 一 些 线性 代数 的 知识 。 如 末 想 把 算法 从 学术 论文 上 扳 
下 来 用 代码 实现 ， 或 者 研究 本 书 之 外 的 算法 ,很 可 能 需要 对 线性 代数 有 基本 的 理解 。 假 设 谈 者 有 
过 这 方面 的 知识 , 但 是 由 于 过 去 一 段 时 间 需 要 回顾 这 方面 的 知识 , 那么 本 附录 可 以 提供 线性 代数 
的 简单 入 门 或 者 补习 。 如 果 读 者 没有 学 过 线性 代数 ,那么 我 建议 在 大 学 选修 这 门 诬 , 或 者 恋 完 一 
本 自学 教材 ， 或 者 通过 视频 来 学 习 。 互 联网 上 有 很 多 免费 辅导 视频 ， 还 有 很 多 一 学 期 课程 的 免 
费 录 像 可 供 学 习 *。 读 者 可 能 听 说 过 “数学 不 是 一 种 仅 供 观赏 的 学 科 ” 这 一 说 法 ,事实 确实 如 此 。 
只 有 目 己 杀身 通过 例子 求解 才能 强化 基于 书本 或 视频 的 尝 习 歼 末 。 

接 下 来 首先 讨 论 线性 代数 中 矩阵 这 一 基本 构件 。 然后 介绍 窍 阵 上 的 一 些 基 本 运算 , 包括 矩 阵 
求 逆 。 上 再 接 春 介绍 机 带 学 习 中 篆 用 的 回 量 范 数 概念 。 最 后 介绍 和 窃 阵 求 导 运 算 。 


B.1 算 阵 


线性 代数 中 最 基本 的 数据 类 型 是 矩阵 。 和 矩阵 由 行 和 列 组 成 。 

图 B-1 给 出 了 一 个 简单 的 矩阵 样 例 。 该 矩阵 由 3 行 3 列 组 成 。 行 通常 从 上 到 下 编号 ， 而 列 则 从 
左 到 右 编 号 。 第 一 行 的 值 分 别 是 9、9 和 77。 类 似 地 ， 第 3 列 的 值 分 别 是 77、18 和 10。 在 NumPy 当 
中 可 以 通过 调用 numpy .shape (myMat) 来 得 到 给 定 和 矩阵 myMat 的 行列 大 小 。 上 述 调用 返回 的 结 
形式 是 〈 行 数 ， 列 数 )。 

本 书 每 一 曹 都 用 到 了 向 量 ， 而 回 量 是 一 个 特殊 的 矩阵 ， 其 行 或 列 数 目 为 1。 通 党 情况 下 ， 提 
到 向量 时 不 会 特别 说 是 行 癌 量 还 是 列 向 量 。 如 果 这 样 ， 则 假设 是 列 向 量 。 图 B-2 左 部 给 出 了 一 个 
列 向 量 ， 是 一 个 3x1 的 矩阵。 而 在 图 B-2 右 部 给 出 的 是 一 个 1x3 的 行 问 量 。 在 矩阵 的 运算 过 程 中 跟 
踩 矩 阵 的 大 小 十 分 重要 ， 比 如 珑 阵 乘 法 。 
























































GD Gilbert Strang 有 些 报告 可 以 免费 观看 ， 地 址 为 http:/www.youtube.com/watch?v=ZK30402wflc。 也 可 以 通过 地 址 
http://ocw.mit.edu/courses/mathematics/18-06-linear-algebraspring-2010/ 获 得 相关 课程 材料 。 他 的 报告 给 出 了 线性 代 
数 的 重点 内 容 ， 理 解 起 来 也 不 难 。 另 外 ， 他 的 计算 科学 的 研究 生 课 程 也 非 背 不 错 ， 地 址 为 http:/www.youtube. 
com/Awatchyv=CgfkEUOFAj0。 

@) 据说 Kahn Academy 的 网 站 上 给 出 了 很 多 线性 代数 的 学 习 视 频 ， 地 址 为 http:/www.khanacademy.org/#linear-algebra。 
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列 
9 9 77 本 
行 
< 加 
4 1 18 
3 10 10 


图 B-1 一 个 简单 的 3x3 和 矩阵 ， 图 中 给 出 了 行 、 列 的 方 回 


|] 区， 本 


4 


3 


图 B-2 ”左边 给 出 了 一 个 列 问 量 ， 右 边 给 出 了 一 个 行 问 量 


和 矩阵 的 一 个 最 基本 的 运算 是 转 置 ， 即 按照 对 角 线 翻 转 失 阵 。 原 来 的 行 变 成 列 、 列 变 成 行 。 图 
B-3 给 出 了 矩阵 B 的 一 个 转 置 过 程 示意 图 。 转 置 运算 通过 和 矩 阵 上 标的 一 个 大 写 的 ?来 表示 。 转 置 运 
算 第 用 来 对 矩阵 处 理 使 之 更 加 容易 计算 。 


1 0 
T_I1 4 3 
B=|I4 1 B = 
0 1 2 
3 2 


图 B-3 ”和 矩阵 的 转 置 过 程 ， 转 置 后 行 变 成 列 


可 以 用 一 个 数字 去 加 或 者 习 以 矩 阵 ， 这 相当 于 对 矩阵 的 每 个 元 素 都 独立 进行 加 法 或 乘法 运 
算 。 由 于 矩阵 元 系 之 则 的 相对 值 没 有 发 生变 化 ,而 只 有 比例 发 生 了 变化 ， 所 以 上 述 这 类 运算 称 为 
标量 运算 ( scalar operation )。 如 采 想 对 矩 阵 进 行 名 数 放 缩 变换 或 者 加 上 一 个 向 数 偶 移 值 ， 束 可 以 
使 用 和 矩阵 标量 乘法 或 加 法 运算 。 图 B-4 给 出 了 标量 乘法 和 加 法 的 两 个 例子 。 














9 9 77 18 18 154 
4 1 18|x2= |8 2 36 
3 10 10 6 20 20 
9 9 77 11 11 79 
4 1 18| +2= 16 3 20 
3 10 10 5 12 12 








图 B-4 ”和 矩阵 上 的 标量 运算 ， 最 后 的 结果 是 每 个 元 系 缮 上 或 者 加 上 菏 个 标量 
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接 下 来 看 一 些 矩 阵 运 算 。 如 何 对 两 个 矩阵 求 和 ?前 和 完 ， 两 个 矩阵 行列 数 必须 要 相同 才能 进行 
求 和 运算 。 和 矩阵 求 和 相当 于 每 个 位 置 上 对 应 元 系 求 和 。 图 B-5 给 出 了 一 个 例子 。 和 矩阵 减法 运算 与 
此 类 似 ， 只 不 过 将 刚才 的 加 法 变 成 减法 即 可 。 








9 8 0 3 9 11 
2 1 + 3 7 a 5 8 
3 4 5 2 8 6 


图 B-5 和 矩阵 求 和 


-个 更 有 趣 的 运算 是 矩阵 乘法 。 两 个 矩阵 相 乘 不 像 标 量 乘法 那么 简单 。 两 个 矩阵 要 相 乘 ,前 
一 个 窍 阵 的 列 数 必须 要 等 于 后 一 个 矩阵 的 行 数 。 例如， 两 个 分 别 为 3x4 和 4x1 的 窍 阵 可 以 相 乘 , 但 
是 3x4 的 矩阵 不 能 和 1x4 的 矩阵 相 乘 。 而 3x4 的 矩阵 和 4x1 的 矩阵 相 乘 会 得 到 3x1 的 结果 矩阵。 有 一 
种 方法 可 以 快速 检查 两 个 矩阵 能 否 相 乘 以 及 结果 和 抢 阵 大 小 ， 将 它们 的 大 小 连 在 一 起 的 写法 
(3x4)(4xl)。 由 于 中 间 的 值 相等 ， 因 此 可 以 进行 乘法 运算 。 去 抒 中 间 的 值 之 后 ， 就 可 以 得 到 结 
矩阵 的 大 小 3x1。 图 B-6 给 出 了 一 个 矩阵 乘法 的 例子 。 


1 0 7 1x7+0x8 pr 
x -一 
4 1 8 4x7+1x8 36 


3 3x7+2x8 37 























图 B-6 “一 个 矩阵 乘法 的 示意 图 ， 图 中 3x2 和 矩阵 乘 以 2x1 和 矩阵 得 到 一 个 3x1 和 矩阵 


本 质 上 来 说 ， 图 B-6 中 所 做 的 是 将 3x2 和 矩 阵 的 每 一 行 旋转 之 后 与 2x1 和 矩 阵 的 每 一 列 对 章 ， 然 后 
计算 对 应 元 素 的 乘积 并 最 终 求 和 。 和 矩阵 相 乘 还 可 以 看 成 是 列 的 加 权 求 和 《人 参见 图 B-7 )。 


1 0 《 1 0 7 
x 一 
4 1 8 7xl4 1|+ 8gx|11 三 | 36 


3 2 3 2 37 











图 B-7 和 矩阵 乘法 可 以 看 成 是 列 的 加 权 求 和 











在 上 面 第 二 种 看 法 下 ,最 终 的 绪 采 虽然 一 样 但 是 采用 了 不 同 的 组 织 方式 。 将 矩阵 乘法 看 成 是 
列 加 权 求 和 对 于 茶 些 算法 很 有 用 ， 比 如 惩 阵 相 乘 的 MapReduce 厂 本 。 一 般 来 说 ， 两 个 矩阵 X 和 了 
的 乘法 定义 为 : 





300 附录 B 线性 代数 


(XY), = > 
k=1 


如 果 对 上 述 两 种 做 法 的 一 致 性 人 存疑， 那么 总 是 可 以 采用 上 式 来 对 矩阵 求 积 。 

机 带 学 习 中 的 一 个 稼 用 运算 是 对 回 量 求 内 积 (也 称 点 积 ) 比如 第 6 章 文 持 回 量 机 中 就 需要 对 
回 量 进行 内 积 计算 。 两 个 回 量 进行 内 积 计算 时 ， 相 应 元 素 相 乘 然 后 求 和 得 到 最 终 回 量 。 图 B-8 给 
出 了 一 个 示意 图 。 

















1 0 
4 © | 1 一 1x0+4x1+3x2 二 10 
3 2 


图 B-8 两 个 回 量 的 内 积 计算 


通常 来 说 , 问 量 内 积 还 有 一 层 物 理 含义 ， 比 如 某 个 问 量 沿 着 为 一 个 癌 量 的 移动 量 。 癌 量 的 内 
积 可 以 用 于 计算 两 个 回 量 的 夹 角 余 弦 值 。 在 任意 文 持 矩阵 乘法 的 程序 中 , 可 以 通过 x 的 转 置 习 以 Y 
实现 两 个 癌 量 x 和 Y 的 内 积 计算 。 如 果 问 量 x 和 Y 的 长 度 都 吓 m， 那 么 两 个 向 量 都 可 以 看 成 mx1 的 矩 
阵 ， 因 此 x 是 1xm 的 矩阵 ，x x Y 是 1x1 的 和 矩 阵 。 


B.2 ”和 矩阵 求 逆 


当 处 理 矩 阵 代 数 方程 时 ， 经 常会 碰 到 和 矩阵 的 道 矩阵。 如 果 xY=I， 其 中 I 是 单位 阵 (单位 阵 I 
的 对 角 线 元 系 均 为 1， 而 其 他 元 素 都 是 0。 任 意 和 矩阵 乘 以 单位 阵 仍 为 原始 和 矩阵 )， 则 称 x 是 Y 的 逆 矩 
阵 。 逆 和 矩阵 的 一 个 实际 缺陷 是 当 和 矩阵 不 止 几 个 元 素 时 计算 很 腑 烦 且 基本 不 可 能 通过 手工 计算 。 了 
解 矩 阵 什么 时 候 才 有 逆 很 有 帮助 ， 这 样 就 可 以 避免 程序 的 错误 。 抢 阵 B 的 逆 和 矩阵 通常 表示 为 B 。 

抢 阵 要 可 逆 必 须要 是 方 阵 。 这 里 所 谓 方 阵 ， 是 指 和 矩阵 的 行 数 等 于 列 数 。 即 使 矩阵 是 方 阵 ， 它 
也 可 能 不 可 逆 。 如 果 某 个 矩阵 不 可 逆 ， 则 称 它 为 奇异 (singular ) 或 退化 ( degenerate ) 矩阵 。 如 
采 某 个 矩阵 的 一 列 可 以 表示 为 其 他 列 的 线性 组 合 ， 则 该 矩阵 是 奇异 矩阵。 如 果 能 够 这 样 表示 ， 则 
可 以 把 一 列 全 部 归 约 为 0。 图 B-9 给 出 了 这 样 的 一 个 矩阵 样 例 。 将 计算 矩阵 的 逆 时 ， 出 现 这 种 矩阵 
就 非常 兵 烦 ， 因 为 出 现 了 除 零 运算 。 后 面 会 介绍 这 一 点 。 


























9 4 0 
5 8 0 
8 6 0 








图 B-9 一 个 奇异 矩阵 的 例子 。 该 矩阵 有 一 列 为 0， 意 味 大 该 矩阵 不 能 求 逆 
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有 很 多 矩阵 求 逆 的 方法 , 一 种 方法 是 对 算 阵 进行 重 排 然 后 每 个 元 系 除 以 行列 式 。 所 谓 行列 式 
是 与 方 阵 关联 的 一 个 特殊 值 ， 通 过 它 能 反映 矩阵 的 一 些 信息 。 图 B-10 给 出 了 一 个 2x2 和 窍 阵 的 手工 
怎 阵 求 逆 过 程 。 注 意 一 下 行列 式 aet () 的 计算 方法 。 这 里 每 个 元 素 都 要 除 以 行列 式 。 如 来 和 矩阵 的 
某 列 全 是 0， 则 行列 式 也 为 0。 这 就 会 导致 除去 运算 ， 由 于 此 时 无 法 运算 ， 因 此 该 矩阵 无 法 求 逆 。 
这 就 是 要 求 逆 的 矩阵 必须 满 秩 的 原因 。 


b11 b12 b22 -b12 
B = B”' = _1 
b21 b22 det(B)| -b21 b11 


det(B)=b11b22 — b12b21 
图 B-10 方 阵 B 的 逆 和 矩阵 求解 。 由 于 每 个 矩阵 元 条 都 要 末 上 1/det (B) ， 因 此 det (B) 不 能 
为 0。 如 果 B 为 奇异 矩阵 ， 则 qdet (B) 为 0， 此 时 无 法 对 B 求 道 。 
上 面 已 经 看 到 一 个 2x2 和 矩阵 的 求 逆 过 程 。 接 下 来 看 看 3x3 的 矩阵 如 何 求 逆 , 你 会 发 现 这 次 要 复 
林 得 多 。 图 B-11 给 出 了 一 个 3x3 和 矩阵 的 求 逆 计算 过 程 。 





























C11 ©6412 C13 
C = |c21 c22 c23 


c31 “32 033 


C22C33 — C23CC32 c13c32 — c12c33 c12c23 —c13c22 

C-1 = 一 1 lec23c31-c21c33 ec11c33-c13c31 c13c21-c11c23 
det(C) 
c21c32 — c22c31 c31c12 — c11c32 c11c22 — c12c21 
det(B)=c11(c22c33-c23c32)+ c12(c23c31-c33c21) + c13(c21c32-c22c31) 
图 B-11 一 个 3x3 的 矩阵 C 的 逆 和 矩阵 求解 过 程 。 和 矩阵 更 大 ， 手 工 求 解 的 难度 也 加 大 ,一 
个 大 小 为 的 方 阵 的 行列 式 包 含 刀 个 元 系 
一 个 值得 吸取 的 教训 就 是 由 于 行列 式 有 nl! 个 元 对 ， 多 元 系 的 矩阵 求 逆 十 分 复兴 。 通 常情 况 下 
不 会 只 处 理 上 面 那 么 小 的 矩阵 ， 因 此 矩阵 求 逆 通 第 使 用 计算 机 完成 。 











B.3 ”和 矩阵 范 数 


范 数 是 一 个 机 融 学 习 领 域名 用 的 概念 。 和 矩阵 的 范 数 通 稼 写成 在 矩阵 的 两 边 分 别 加 上 两 条 竖 
杠 ， 例 如 llal。 下 面 匈 介绍 回 量 的 范 数 。 
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问 量 的 范 数 运算 会 给 回 量 赋予 一 个 正 标量 值 。 可 以 把 回 量 范 数 看 成 是 癌 量 的 长 度 , 这 在 很 多 
机 带 学 习 算 法 比如 k 近 邻 中 都 非常 有 用 。 对 于 辐 量 z=[3,4] ， 其 长 度 为 V3 +4- =5 。 这 也 销 稼 称 
为 向 量 的 2 范式 ， 写 作 |lzl 或 zlP。 

在 菜 些 机 禹 学 习 算 法 当中 ,比如 lasso 回 归 , 采用 其 他 的 函数 计算 方法 可 能 效 采 更 好 。 其 中 L1 
范 数 也 很 流行 ， 它 的 邦 一 个 名 称 是 曼哈顿 距离 (Manhattan distance )。 回 量 z 的 L1 范 数 为 3+4=7， 
写作 llzl 。 可 以 定义 任意 阶 范 数 ， 其 形式 化 定义 如 下 : 


,= [SE] 
问 量 范 数 主要 用 于 确定 回 量 作为 输入 时 的 大 小 。 除 了 上 述 定义 外 , 用户 可 以 采用 任意 方式 来 
定义 目 己 的 问 量 邦 数 ， 只 要 其 可 以 将 问 量 转换 为 标量 值 。 
B.4 矩阵 求 导 


除了 和 矩 阵 和 向 量 的 加 减 乘除 运算 之 外 , 还 可 以 对 矩阵 进行 微 积 分 运算 , 包括 对 向 量 和 和 矩阵 的 
求 导 。 在 诸如 梯度 下 降 的 算法 中 需要 用 到 这 一 点 。 这 里 的 求 寻 并 不 比 常规 的 求 寻 更 难 ， 只 是 要 清 
楚 这 里 的 概念 和 和 定义。 


村 于 向 量 4=| S|， 可 以 对 x 来 导 ,得 到 另 一 个 向 量 学 -| 
SIn3X 一 47 dx 
个 向 量 求 导 ， 会 得 到 一 个 矩阵 。 比 如 ， 另 一 个 向 量 


























Co |， 如果 要 对 男 


3COS3X 





如 果 4 (一 个 2x1 的 向 量 ) 要 对 B (一 个 3x1 的 向 量 ) 求 导 ， 会 得 到 如 下 3x2 的 矩阵: 
COSX 3COS3X 
-=| 一 4 

0 


dB 





更 一 般 地 ， 有 : 


Ss 
| 
| 
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本 附录 复习 概率 论 的 一 些 基本 概念 。 概 率 论 博大 精 这 而 本 书 篇 帐 有 限 , 如 于 读者 已 经 研究 过 
概率 论 ， 可 以 将 本 附录 视 为 一 个 简单 的 复习 材料 。 如 采访 者 尚未 踏足 概率 论 及 其 相关 知识 ， 作 者 
建议 在 这 个 浅显 的 附录 之 外 再 做 一 些 扩 展 阅 读 。 例如, Khan 学 院 已 经 为 目 学 者 提供 了 很 多 有 用 的 
入 门 讲座 和 视频 ”。 


C.1 概率 论 简介 


概率 ( probalility ) 定义 为 一 件 事 情 发 后 的 可 能 性 。 事 情 发 生 的 概率 可 以 通过 观测 数据 中 的 事 
件 发 生 次 数 来 计算 , 事件 发 生 的 概率 等 于 该 事件 发 生 的 次 数 除 以 所 有 事件 发 生 的 总 次 数 。 下 面 举 
出 一 些 事件 的 例子 。 

口 扔 出 一 枚 硬币， 结果 头像 弄 上 。 

口 一 个 新 生 竖 儿 是 女 护 。 

口 一 架 飞 机 安全 着 陆 。 

口 某 天 是 雨天 。 

观察 上 述 事 件 , 下 面 分 析 一 下 如 何 计算 它们 的 概率 。 例如 我 们 收集 到 美国 五 大 湖 地 区 的 一 些 
天 气 数据 ， 在 该 数据 里 ， 天 气 被 分 成 三 类 : {上 晴天、 雨天 、 雪 天 }， 如 表 C-1 所 示 。 


表 C-1 五 大 湖 地 区 去 年 冬天 的 天 气 观 测 数据 


























编 号 星 期 几 华 氏 度 天 ” 
1 1 20 青 
2 2 3 二 
， 4 3 * 雪 
4 5 30 青 
5 1 40 下 雨 
6 2 42 下 雨 
7 3 40 青 


GD Khan Academy. http:/www.khanacademy.org/?video=basic-probability#probability. 
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我 们 可 以 借用 该 表 估计 出 当地 的 天 气 是 下 雪 的 概率 。 表 C-1 的 数据 只 有 7 个 观察 值 ， 并 且 双 
时 间 也 不 连续 ， 但 这 是 目前 所 能 获得 的 所 有 数据 。 如 果 将 事件 的 概率 记 做 事件 )， 那 么 天 气 是 
雪 天 的 概率 P( 天 气 = 下 雪 ) 可 以 用 下 式 计算 ， 











F 雪 天 的 天 数 “2 
总 天 数 7 
这 里 将 上 述 概率 记 做 是 P( 天 气 = 下 雪 )， 但 天 气 是 唯一 能 取 到 “下 雪 ” 这 个 值 的 变量 ， 所 以 此 
概率 还 可 以 简写 为 P( 下 雪 )。 根 据 概率 的 基本 定义 ,我 们 继续 计算 出 天 气 = 下 雨 的 概率 和 天 气 = 晴 
的 概率 。 请 读者 自行 检查 一 下 是 否 有 P( 下 雨 )=2/7 和 P( 晴 )=3/7。 上 文 介绍 了 如 何 计算 变量 取 到 某 
个 特定 值 的 概率 ， 若 需要 同时 关注 多 个 变量 应 该 怎么 办 呢 ? 


C.2 联合 概率 


如 采 两 件 事 同时 发 生 概 率 应 当 如 何 计算 呢 ， 例 如 天 气 = 下 雪 且 星期 儿 =2? 不 难 想到 ， 这 个 概 
率 应 该 等 于 两 件 事情 都 为 芮 的 次 数 除 以 所 有 事件 发 生 的 总 次 数 。 人 徐 单 来 计算 一 下 : 只 有 一 个 样本 
点 满足 天 气 = 下 雪 且 星期 几 =2， 所 以 这 个 概率 应 当 是 1/7。 这 种 联合 事件 的 概率 一 般 用 逗号 隅 开 的 
变量 来 表示 : P( 天 气 = 雪 天 ， 星 期 几 =2) 。 一 般 地 ， 对 事件 XY 机 7 来 说 ， 对 应 的 联合 概率 应 该 记 为 
P(X, 了 )。 

读者 可 能 还 看 到 过 一 些 形 如 P(X, 了 |2Z) 的 概率 , 这 里 的 竖 杠 代表 条 件 概率 , 所 以 这 个 式 子 表示 : 
在 给 定 事件 Z 的 条 件 下 事件 xX 和 7 都 发 生 的 概率 。 条 件 概 率 的 内 容 可 以 参见 第 4 章 。 

要 进行 概率 运算 ,还 需要 了 解 儿 条 基本 的 运算 规则 。 一 旦 掌握 了 这 些 规则 ,我 们 就 可 以 计算 
代数 表达 式 的 概率 ， 并 能 从 已 知 量 推出 未 知 量 。 下 节 将 对 这 些 基本 规则 进行 逐一 介绍 。 


C.3 概率 的 基本 准则 


概率 的 基本 准则 使 我 们 可 以 在 概率 上 做 数学 演算 ,这 些 准则 与 代数 里 的 公理 一 样 ,需要 牢记 。 
本 书 将 对 它们 依次 做 出 介绍 ， 并 用 表 C-1 的 数据 做 辅助 分 析 。 

可 以 看 到 ， 前 面 计 算出 的 概率 都 是 分 数 。 如 果 数 据 集 里 的 所 有 天 气 都 是 雪 天 ， 那 么 P( 下 要 ) 
将 会 是 77， 即 等 于 1。 如 果 数 据 集 里 没有 雪 天 ,那么 P( 下 雪 ) 将 会 是 07， 即 等 于 0。 所 以 对 任何 事 
件 X 来 说 , 0<PO9)<1。 

雪 天 的 求 补 事件 记 为 ~ 下 雪 或 者 -下 雪 。 求 补 意味 者 除了 给 定 事件 (下 雪 ) 以 外 的 任何 其 他 事 
件 , 在 表 C-1 的 天 气 中 ,其 他 事件 包括 下 雨 和 上 晴 , 在 仪 有 这 三 种 可 能 的 天 气 事 件 下 , P(- 下 雪 )=P( 下 
十 )+ P( 上 晴天 )= 5/7， 而 同时 P( 下 雪 )= 2/7， 所 以 P( 下 雪 ) + P(- 下 雪 )=1。 田 一 种 说 法 是 下 雪 十 一 下 
雪 事 件 总 为 真 。 用 图 表 将 其 可 视 化 能 帮助 我 们 理解 这 些 事 件 间 的 关系 ,其 中 一 种 很 有 用 的 图 就 是 
文 民 图 ， 它 在 表示 和 集合 的 时 候 非 常 有 效 。 图 C-1 展 示 了 所 有 可 能 的 天 气 状况 的 事件 集合 。 雪 天 占 
据 了 图 中 的 圆圈 内 的 区 域 ， 而 非 雪 天 则 占据 了 其 他 区 域 。 
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图 C-1 左 图 的 圆圈 内 表示 “下 雪 天 ”事件 (将 其 他 事件 排除 在 圆圈 之 外 ) ， 右 图 的 圆 图 外 则 表 
示 除 “要 天 ”外 的 其 他 所 有 事件 。 这 样 ， 雪 天 和 非 雪 天 就 包括 了 所 有 事件 。 











概率 论 的 最 后 一 个 基本 准则 是 关于 多 变量 的 。 图 C-2 的 文 氏 图 描述 了 表 C-1 中 的 两 个 事件 的 天 
系 , 事件 一 是 “天 气 = 下 雪 ”"， 而 事件 二 是 “星期 几 =2”。 这 两 个 事件 不 是 互 斥 的 ， 也 就 是 说 它们 
可 能 同时 发 生 。 有 些 下 雪 天 恰好 是 星期 二 , 也 有 些 下 雪 天 不 是 星期 二 。 因 此 这 两 个 事件 在 图 中 的 
区 域 有 一 部 分 重 辣 但 并 不 完全 重 营 。 



































图 C-2 表示 两 个 相交 事件 的 文 氏 图 





图 C-2 中 的 重 登 区 域 被 认为 是 两 个 事件 的 交集 ， 可 以 二 观 地 记 做 (天 气 = 雪 天 ) AND (星期 儿 =2)。 
如 何 计算 P (天气 = 雪 天 ) OR (星期 几 =2)) 呢 ”可 以 用 减 去 重 半 部 分 的 方法 来 避免 重复 计数 : P( 雪 天 
AND 星期 二 )=P( 雪 天 )+P( 星 期 二 )-P( 雪 天 AND 星期 二 )。 如 果 将 上 式 一 般 化 就 得 到 式 子 : P(X OR 
站 =POV)+P(7) -P(XAND 站。 该 公式 很 有 意义 ， 它 在 AND 和 OR 的 概率 之 间 搭 起 了 桥 次 。 

通过 这 些 基 本 的 概率 运算 准则 就 可 以 计算 出 各 种 事件 的 概率 ,通过 假设 和 先 验 知识 可 以 推算 
出 未 观测 到 的 事件 的 概率 。 
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数据 收集 是 件 非 党 有 趣 的 事情 , 但 当 你 对 茶 算 法 灵感 诵 来 并 试图 做 一 些 实验 的 时 候 , 临时 找 
数据 也 是 件 很 头疼 的 事情 。 本 附录 提供 了 一 些 可 用 数据 集 的 超 链接 。 这 些 数 据 集 的 大 小 从 20 行 到 
万 亿 行 不 等 ， 从 中 找到 所 需 数据 应 该 不 是 一 件 难 事 : 

口 http:/archive.ics.uci.eduml/ 一 一 最 有 名 的 机 需 学 习 数 据 资源 来 自 美 国 加 州 大 学 欧文 分 校 。 
虽然 本 书 仅 使 用 了 这 其 中 的 不 到 10 个 数据 集 , 但 该 数据 库 已 经 提供 了 200 多 个 可 用 的 数据 
集 。 其 中 很 多 数据 常 被 用 来 比较 算法 的 性 能 ， 基 于 这 些 资源 ， 人 研究 人 员 可 以 得 到 相对 客 
观 的 性 能 比较 结 采 。 

口 http://aws.amazon.com/publicdatasets/ 一 一 如 果 你 是 一 个 大 数据 的 爱好 者 ， 这 个 链接 尤其 不 
能 错过 。Amazon 拥 有 真正 的 “大 ”数据 ， 包 括 美 国人 口 普查 数据 、 人 类 基因 组 注释 的 数 
据 、 一 个 150 GB 的 日 志 (维基 百科 的 页 面 流量 ) 和 一 个 500 GB 的 数据 库 ( 维基 百科 的 链 
接 数 据 )。 

口 http://www.data.gov 一 一 Data.gov 启 动 于 2009 年 ,日 的 是 使 公众 可 以 更 加 方便 地 访问 政府 的 
数据 。 一 旦 政府 的 某 份 数据 可 以 公开 ， 他 们 就 将 该 数据 发 布 。 到 2010 年 ， 该 网 站 束 已 经 
拥有 了 250 000 个 数据 集 。 但 网 站 还 能 活路 多久 尚未 可 知 ， 因 为 2011 年 的 时 候 联邦 政府 减 
少 了 对 电子 政府 ( Electronic Government Fund， 该 网 站 的 资金 来 源 ) 的 基金 文 持 。 该 网 站 
提供 的 数据 主要 包含 一 些 被 召回 的 产品 和 破产 的 银行 信息 等 。 

口 http:/www.data.gov/opendatasites Data.gov 还 维持 了 一 个 包括 美国 州 、 城 市 和 国家 等 网 
站 在 内 的 超 链 接 列 表 ， 它 们 都 提供 类 似 的 开放 数据 。 

口 http://www.infochimps.com/ Infochimps 是 一 个 公司 ， 公 司 目 标 是 让 每 个 人 可 以 访问 世界 
上 所 有 的 数据 集 ， 目 前 它 已 开放 了 14 000 多 个 数据 集 的 下 载 。 与 本 列表 中 的 其 他 站 点 不 同 ， 
Infochimps 的 其 中 一 些 数 据 集 是 需要 购买 的 。 当然, 你 也 可 以 在 该 网 站 上 出 售 目 己 的 数据 集 。 

D http:/www.datawrangling.com/some-datasets-available-on-the-web Data Wrangling 是 一 
个 私人 的 博客 ， 提 供 了 网 络 上 大 量 数据 集 的 链接 。 虽 然 许 入 没有 更 新 ， 但 其 中 很 多 数据 
集 仍 相当 不 错 。 

口 http://metaoptimize.com/qa/questions/ 一 一 该 站 点 并 不 提供 数据 资源 ， 而 是 一 个 问答 系统 的 
站 点 ， 重 点 关注 于 机 各 学 习 。 在 这 里 有 很 多 高 手 乐意 伸 出 援手 、 帮 助 解 答 问 题 。 
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机 器 学 习 是 人 工 智 能 研究 领域 中 一 个 极其 重 
要 的 研究 方向 ， 在 现今 的 大 数据 时 代 背 景 下 ， 捕 
获 数据 并 从 中 萃取 有 价值 的 信息 或 模式 ， 成 为 各 
行业 求生 存 、 谋 发 展 的 决定 性 手段 ， 这 使 得 这 一 
过 去 为 分 析 师 和 数学 家 所 专属 的 研究 领域 越 来 越 
为 人 们 所 瞩目 。 

本 书 第 一 部 分 主要 介绍 机 器 学 习 基 础 ， 以 及 
如 何 利用 算法 进行 分 类 ， 并 逐步 介绍 了 多 种 经 典 
的 监督 学 习 算 法 ， 如 k- 近 邻 算 法 、 朴 素 贝 叶 斯 算 
法 、Logistic 回 归 算 法 、 支 持 向 量 机 、AdaBoost 
集成 方法 、 基 于 树 的 回归 算法 和 分 类 回归 树 
( CART ) 算法 等 。 第 三 部 分 则 重点 介绍 无 监督 
学 习 及 其 一 些 主要 算法 : K- 均 值 聚 类 算法 、 
Apriori 算 法 、FP-Growth 算 法 。 第 四 部 分 介绍 了 
机 器 学 习 算法 的 一 些 附属 工具 。 

全 书 通过 精心 编排 的 实例 ， 切 入 日 常 工作 任 
务 ， 握 弃 学 术 化 语言 ， 利 用 高 效 的 可 复 用 Python 
代码 来 前 释 如 何 处 理 统 计数 据 ， 进 行 数据 分 析 及 
可 视 化 。 通 过 各 种 实例 ， 读 者 可 从 中 学 会 机 器 学 
习 的 核心 算法 ， 并 能 将 其 运用 于 一 些 策略 性 任务 
中 ， 如 分 类 、 预 测 、 推 荐 。 另 外 ， 还 可 用 它们 来 
实现 一 些 更 高 级 的 功能 ， 如 汇总 和 简化 等 。 
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